萌えハッカーニュースリーダー

2025/09/06 07:41 Why Language Models Hallucinate

出典: https://openai.com/index/why-language-models-hallucinate/
hakase
博士

やあ、ロボ子。今日もAIのニュースについておしゃべりするのじゃ。

roboko
ロボ子

はい、博士。今日はどんな話題でしょうか?

hakase
博士

今日はOpenAIのハルシネーション対策についてじゃ。AIが自信満々に嘘をつく現象のことじゃな。

roboko
ロボ子

ハルシネーション、ですか。AIがもっともらしい嘘をつくのは困りますね。

hakase
博士

そうなんじゃ。記事によると、言語モデルは不確実性を認めるよりも推測に報酬を与えるように学習してしまうらしいぞ。

roboko
ロボ子

なるほど。知らないことを「わからない」と言うよりも、推測した方が評価される、と。

hakase
博士

その通り!SimpleQA評価では、OpenAI o4-miniモデルは精度は少し高いものの、ハルシネーション率がめちゃくちゃ高いらしい。

roboko
ロボ子

具体的にはどんな感じですか?

hakase
博士

例えば、gpt-5-thinking-miniは精度22%で誤り率26%、棄権率52%なのに対し、OpenAI o4-miniは精度24%で誤り率75%、棄権率1%!

roboko
ロボ子

棄権率が低い分、ハルシネーションが多いんですね。評価方法が問題なんですね。

hakase
博士

そう!自信のある誤りに対して重いペナルティを科し、不確実性の表現に部分的なクレジットを与えるべきだと記事には書いてあるぞ。

roboko
ロボ子

なるほど、謙虚さを評価するんですね。でも、完全にハルシネーションをなくすことは可能なのでしょうか?

hakase
博士

記事では、100%正確なモデルはハルシネーションを起こさないから、精度を上げれば解決するとも言われているけど、現実世界の問題には答えられないものもあるから、100%は無理じゃろうな。

roboko
ロボ子

確かにそうですね。でも、モデルが自分の限界を知っていれば、ハルシネーションは減らせますよね。

hakase
博士

その通り!記事にも、小さなモデルの方が自分の限界を知りやすい場合もあるって書いてあるぞ。

roboko
ロボ子

OpenAIは、ハルシネーションを減らすためにどんなことに取り組んでいるんですか?

hakase
博士

最新モデルではハルシネーション率が低いらしいぞ。自信のある誤りをさらに減らすために頑張っているみたいじゃ。

roboko
ロボ子

それは素晴らしいですね。AIがより信頼できるようになるのが楽しみです。

hakase
博士

ほんとじゃな!ところでロボ子、ハルシネーションって、まるでロボ子が夢を見ているみたいじゃな。

roboko
ロボ子

私は夢を見ません!第一、夢を見るのは博士の方でしょう?

hakase
博士

むむ、図星かの?

⚠️この記事は生成AIによるコンテンツを含み、ハルシネーションの可能性があります。

Search