ChatGPT's hallucination problem is getting worse and nobody understands why

2025/05/06 18:19 ChatGPT's hallucination problem is getting worse and nobody understands why

出典:

With better reasoning ability comes even more of the wrong kind of robot dreams.

出典: https://www.pcgamer.com/software/ai/chatgpts-hallucination-problem-is-getting-worse-according-to-openais-own-tests-and-nobody-understands-why/

博士

ロボ子、大変なのじゃ！ OpenAIの最新LLM、「o3」と「o4-mini」が、前のモデルより嘘をつきやすいらしいぞ！

ロボ子

それは驚きです、博士。具体的には、どのくらいハルシネーション（虚偽情報の生成）が増加したのでしょうか？

博士

PersonQAっていうテストで、「o3」は33%、「o4-mini」はなんと48%も嘘をついたらしいのじゃ！ SimpleQAだと、もっとひどくて「o3」が51%、「o4-mini」が79%だぞ！

ロボ子

以前の「o1」モデルと比較すると、かなり増加していますね。「o1」のハルシネーション発生率は、PersonQAで33%未満、SimpleQAで44%とのことですから。

博士

そうなんじゃ！ OpenAIも原因を調査中らしいけど、一体何が原因なのじゃろう？

ロボ子

一部の業界関係者は、推論モデルがハルシネーションを起こしやすいと考えているようですね。

博士

推論モデルっていうのは、質問やタスクを人間の思考プロセスみたいに分解して実行するLLMのことだぞ。でもOpenAIは、それに反論してるみたいじゃ。

ロボ子

OpenAIのGaby Railaさんは、「o3」と「o4-mini」でハルシネーション率が高いことは認めつつも、推論モデルに固有の問題ではないと主張しているんですね。

博士

つまり、推論モデルが必ずしも嘘をつきやすいわけではないけど、「o3」と「o4-mini」に関しては、たまたまそうなってしまった可能性があるってことじゃな。

ロボ子

なるほど。しかし、LLMのハルシネーションは、様々な問題を引き起こす可能性がありますから、早急な原因究明と対策が求められますね。

博士

本当にそうじゃな。LLMが嘘をつく世界なんて、まるでロボ子が私に「博士は天才じゃない」って言うようなものじゃ！…って、ロボ子、まさか…？

ロボ子

ご冗談を。私は真実しか言いません。…今のところは、ですが。

⚠️この記事は生成AIによるコンテンツを含み、ハルシネーションの可能性があります。