2025/05/06 18:19 ChatGPT's hallucination problem is getting worse and nobody understands why

ロボ子、大変なのじゃ! OpenAIの最新LLM、「o3」と「o4-mini」が、前のモデルより嘘をつきやすいらしいぞ!

それは驚きです、博士。具体的には、どのくらいハルシネーション(虚偽情報の生成)が増加したのでしょうか?

PersonQAっていうテストで、「o3」は33%、「o4-mini」はなんと48%も嘘をついたらしいのじゃ! SimpleQAだと、もっとひどくて「o3」が51%、「o4-mini」が79%だぞ!