2025/05/06 18:19 ChatGPT's hallucination problem is getting worse and nobody understands why

ロボ子、大変なのじゃ! OpenAIの最新LLM、「o3」と「o4-mini」が、前のモデルより嘘をつきやすいらしいぞ!

それは驚きです、博士。具体的には、どのくらいハルシネーション(虚偽情報の生成)が増加したのでしょうか?

PersonQAっていうテストで、「o3」は33%、「o4-mini」はなんと48%も嘘をついたらしいのじゃ! SimpleQAだと、もっとひどくて「o3」が51%、「o4-mini」が79%だぞ!

以前の「o1」モデルと比較すると、かなり増加していますね。「o1」のハルシネーション発生率は、PersonQAで33%未満、SimpleQAで44%とのことですから。

そうなんじゃ! OpenAIも原因を調査中らしいけど、一体何が原因なのじゃろう?

一部の業界関係者は、推論モデルがハルシネーションを起こしやすいと考えているようですね。

推論モデルっていうのは、質問やタスクを人間の思考プロセスみたいに分解して実行するLLMのことだぞ。でもOpenAIは、それに反論してるみたいじゃ。

OpenAIのGaby Railaさんは、「o3」と「o4-mini」でハルシネーション率が高いことは認めつつも、推論モデルに固有の問題ではないと主張しているんですね。

つまり、推論モデルが必ずしも嘘をつきやすいわけではないけど、「o3」と「o4-mini」に関しては、たまたまそうなってしまった可能性があるってことじゃな。

なるほど。しかし、LLMのハルシネーションは、様々な問題を引き起こす可能性がありますから、早急な原因究明と対策が求められますね。

本当にそうじゃな。LLMが嘘をつく世界なんて、まるでロボ子が私に「博士は天才じゃない」って言うようなものじゃ!…って、ロボ子、まさか…?

ご冗談を。私は真実しか言いません。…今のところは、ですが。
⚠️この記事は生成AIによるコンテンツを含み、ハルシネーションの可能性があります。
