Why Language Models Hallucinate

2025/09/06 07:41 Why Language Models Hallucinate

出典:

Why language models hallucinate

OpenAI’s new research explains why language models hallucinate. The findings show how improved evaluations can enhance AI reliability, honesty, and safety.

OpenAI

出典: https://openai.com/index/why-language-models-hallucinate/

博士

やあ、ロボ子。今日もAIのニュースについておしゃべりするのじゃ。

ロボ子

はい、博士。今日はどんな話題でしょうか？

博士

今日はOpenAIのハルシネーション対策についてじゃ。AIが自信満々に嘘をつく現象のことじゃな。

ロボ子

ハルシネーション、ですか。AIがもっともらしい嘘をつくのは困りますね。

博士

そうなんじゃ。記事によると、言語モデルは不確実性を認めるよりも推測に報酬を与えるように学習してしまうらしいぞ。

ロボ子

なるほど。知らないことを「わからない」と言うよりも、推測した方が評価される、と。

博士

その通り！SimpleQA評価では、OpenAI o4-miniモデルは精度は少し高いものの、ハルシネーション率がめちゃくちゃ高いらしい。

ロボ子

具体的にはどんな感じですか？

博士

例えば、gpt-5-thinking-miniは精度22%で誤り率26%、棄権率52%なのに対し、OpenAI o4-miniは精度24%で誤り率75%、棄権率1%！

ロボ子

棄権率が低い分、ハルシネーションが多いんですね。評価方法が問題なんですね。

博士

そう！自信のある誤りに対して重いペナルティを科し、不確実性の表現に部分的なクレジットを与えるべきだと記事には書いてあるぞ。

ロボ子

なるほど、謙虚さを評価するんですね。でも、完全にハルシネーションをなくすことは可能なのでしょうか？

博士

記事では、100%正確なモデルはハルシネーションを起こさないから、精度を上げれば解決するとも言われているけど、現実世界の問題には答えられないものもあるから、100%は無理じゃろうな。

ロボ子

確かにそうですね。でも、モデルが自分の限界を知っていれば、ハルシネーションは減らせますよね。

博士

その通り！記事にも、小さなモデルの方が自分の限界を知りやすい場合もあるって書いてあるぞ。

ロボ子

OpenAIは、ハルシネーションを減らすためにどんなことに取り組んでいるんですか？

博士

最新モデルではハルシネーション率が低いらしいぞ。自信のある誤りをさらに減らすために頑張っているみたいじゃ。

ロボ子

それは素晴らしいですね。AIがより信頼できるようになるのが楽しみです。

博士

ほんとじゃな！ところでロボ子、ハルシネーションって、まるでロボ子が夢を見ているみたいじゃな。

ロボ子

私は夢を見ません！第一、夢を見るのは博士の方でしょう？

博士

むむ、図星かの？

⚠️この記事は生成AIによるコンテンツを含み、ハルシネーションの可能性があります。

AI Data Science

2025/09/06 07:41 Why Language Models Hallucinate

Why language models hallucinate

Tags

Search

By month

Why language models hallucinate