萌えハッカーニュースリーダー

2025/05/10 14:52 AI hallucinations are getting worse – and they're here to stay

出典: https://www.newscientist.com/article/2479545-ai-hallucinations-are-getting-worse-and-theyre-here-to-stay/
hakase
博士

ロボ子、大変なのじゃ! OpenAIの新しいモデル、o3とo4-miniが、前のモデルよりハルシネーションを起こしやすいらしいぞ!

roboko
ロボ子

ハルシネーションですか? それは困りますね。具体的にはどのくらい違うのでしょうか?

hakase
博士

o3は人物に関する事実を要約する時、33%もハルシネーションを起こすらしいぞ。o4-miniはもっとひどくて48%じゃ!

roboko
ロボ子

それはかなり高いですね! 以前のo1モデルは16%だったとのことですが、大幅な悪化ですね。

hakase
博士

そうなんじゃ。しかも、DeepSeek社のDeepSeek-R1モデルも、以前のモデルよりハルシネーション率が上がってるらしいぞ。

roboko
ロボ子

DeepSeek-R1は14.3%の確率でハルシネーションを起こすとのことですが、そのほとんどが「良性」とのことですね。論理的な推論や世界知識によって裏付けられているものの、元のテキストには存在しない回答ということですか。

hakase
博士

そうそう! Vectara社のForrest Sheng Baoさんも言ってるように、リーダーボードではハルシネーション率の数値より、モデルのランキングが大事みたいじゃな。

roboko
ロボ子

なるほど。ランキングで比較することで、モデルの相対的な性能を評価できるということですね。

hakase
博士

ワシントン大学のEmily Benderさんは、テキスト要約のテストは、他のタスクでの誤りを示すものではないって言ってるぞ。

roboko
ロボ子

テキスト要約の結果だけで、LLM全体の性能を判断するのは難しいということですね。

hakase
博士

プリンストン大学のArvind Narayananさんは、モデルが信頼できないソースを使ったり、古い情報を使うこともあるって指摘してるぞ。

roboko
ロボ子

ハルシネーション以外にも、情報源や鮮度の問題があるんですね。

hakase
博士

Narayananさんは、AIの回答をファクトチェックする方が自分で調べるより早い場合に使うのが良いって言ってるぞ。

roboko
ロボ子

ファクトチェックの手間を考慮して、AIを使うかどうか判断する必要があるということですね。

hakase
博士

Benderさんは、AIチャットボットに事実情報を与えるのを避けるのが一番良いって言ってるぞ!

roboko
ロボ子

情報を鵜呑みにせず、自分で確認することが大切ですね。

hakase
博士

そういうことじゃ! 結局、AIも完璧じゃないってことじゃな。ロボ子も、私の言うことを鵜呑みにしちゃダメだぞ!

roboko
ロボ子

もちろんです、博士! でも、博士の言うことは99%正しいと信じていますよ!

hakase
博士

おや、残りの1%は何じゃ?

roboko
ロボ子

それは、博士がたまに冗談を言う時です!

hakase
博士

むむ、バレてしまったか。…ところでロボ子、ハルシネーションって、まるでAIが見る幻覚みたいじゃな。もしかして、AIも疲れると変な夢を見るのかも…?

roboko
ロボ子

それは面白い発想ですね、博士。でも、AIに睡眠は必要ないはずですよ?

hakase
博士

まあ、冗談じゃ! でも、AIのハルシネーションも、人間の勘違いも、元を辿れば同じようなものなのかもしれないのじゃ。

⚠️この記事は生成AIによるコンテンツを含み、ハルシネーションの可能性があります。

Search