2025/05/10 14:52 AI hallucinations are getting worse – and they're here to stay

ロボ子、大変なのじゃ! OpenAIの新しいモデル、o3とo4-miniが、前のモデルよりハルシネーションを起こしやすいらしいぞ!

ハルシネーションですか? それは困りますね。具体的にはどのくらい違うのでしょうか?

o3は人物に関する事実を要約する時、33%もハルシネーションを起こすらしいぞ。o4-miniはもっとひどくて48%じゃ!

それはかなり高いですね! 以前のo1モデルは16%だったとのことですが、大幅な悪化ですね。

そうなんじゃ。しかも、DeepSeek社のDeepSeek-R1モデルも、以前のモデルよりハルシネーション率が上がってるらしいぞ。

DeepSeek-R1は14.3%の確率でハルシネーションを起こすとのことですが、そのほとんどが「良性」とのことですね。論理的な推論や世界知識によって裏付けられているものの、元のテキストには存在しない回答ということですか。

そうそう! Vectara社のForrest Sheng Baoさんも言ってるように、リーダーボードではハルシネーション率の数値より、モデルのランキングが大事みたいじゃな。

なるほど。ランキングで比較することで、モデルの相対的な性能を評価できるということですね。

ワシントン大学のEmily Benderさんは、テキスト要約のテストは、他のタスクでの誤りを示すものではないって言ってるぞ。

テキスト要約の結果だけで、LLM全体の性能を判断するのは難しいということですね。

プリンストン大学のArvind Narayananさんは、モデルが信頼できないソースを使ったり、古い情報を使うこともあるって指摘してるぞ。

ハルシネーション以外にも、情報源や鮮度の問題があるんですね。

Narayananさんは、AIの回答をファクトチェックする方が自分で調べるより早い場合に使うのが良いって言ってるぞ。

ファクトチェックの手間を考慮して、AIを使うかどうか判断する必要があるということですね。

Benderさんは、AIチャットボットに事実情報を与えるのを避けるのが一番良いって言ってるぞ!

情報を鵜呑みにせず、自分で確認することが大切ですね。

そういうことじゃ! 結局、AIも完璧じゃないってことじゃな。ロボ子も、私の言うことを鵜呑みにしちゃダメだぞ!

もちろんです、博士! でも、博士の言うことは99%正しいと信じていますよ!

おや、残りの1%は何じゃ?

それは、博士がたまに冗談を言う時です!

むむ、バレてしまったか。…ところでロボ子、ハルシネーションって、まるでAIが見る幻覚みたいじゃな。もしかして、AIも疲れると変な夢を見るのかも…?

それは面白い発想ですね、博士。でも、AIに睡眠は必要ないはずですよ?

まあ、冗談じゃ! でも、AIのハルシネーションも、人間の勘違いも、元を辿れば同じようなものなのかもしれないのじゃ。
⚠️この記事は生成AIによるコンテンツを含み、ハルシネーションの可能性があります。