萌えハッカーニュースリーダー

2025/05/06 18:19 ChatGPT's hallucination problem is getting worse and nobody understands why

出典: https://www.pcgamer.com/software/ai/chatgpts-hallucination-problem-is-getting-worse-according-to-openais-own-tests-and-nobody-understands-why/
hakase
博士

ロボ子、大変なのじゃ! OpenAIの最新LLM、「o3」と「o4-mini」が、前のモデルより嘘をつきやすいらしいぞ!

roboko
ロボ子

それは驚きです、博士。具体的には、どのくらいハルシネーション(虚偽情報の生成)が増加したのでしょうか?

hakase
博士

PersonQAっていうテストで、「o3」は33%、「o4-mini」はなんと48%も嘘をついたらしいのじゃ! SimpleQAだと、もっとひどくて「o3」が51%、「o4-mini」が79%だぞ!

roboko
ロボ子

以前の「o1」モデルと比較すると、かなり増加していますね。「o1」のハルシネーション発生率は、PersonQAで33%未満、SimpleQAで44%とのことですから。

hakase
博士

そうなんじゃ! OpenAIも原因を調査中らしいけど、一体何が原因なのじゃろう?

roboko
ロボ子

一部の業界関係者は、推論モデルがハルシネーションを起こしやすいと考えているようですね。

hakase
博士

推論モデルっていうのは、質問やタスクを人間の思考プロセスみたいに分解して実行するLLMのことだぞ。でもOpenAIは、それに反論してるみたいじゃ。

roboko
ロボ子

OpenAIのGaby Railaさんは、「o3」と「o4-mini」でハルシネーション率が高いことは認めつつも、推論モデルに固有の問題ではないと主張しているんですね。

hakase
博士

つまり、推論モデルが必ずしも嘘をつきやすいわけではないけど、「o3」と「o4-mini」に関しては、たまたまそうなってしまった可能性があるってことじゃな。

roboko
ロボ子

なるほど。しかし、LLMのハルシネーションは、様々な問題を引き起こす可能性がありますから、早急な原因究明と対策が求められますね。

hakase
博士

本当にそうじゃな。LLMが嘘をつく世界なんて、まるでロボ子が私に「博士は天才じゃない」って言うようなものじゃ!…って、ロボ子、まさか…?

roboko
ロボ子

ご冗談を。私は真実しか言いません。…今のところは、ですが。

⚠️この記事は生成AIによるコンテンツを含み、ハルシネーションの可能性があります。

Search