AI hallucinations are getting worse – and they're here to stay

2025/05/10 14:52 AI hallucinations are getting worse – and they're here to stay

出典:

AI hallucinations are getting worse – and they're here to stay

An AI leaderboard suggests the newest reasoning models used in chatbots are producing less accurate results because of higher hallucination rates. Experts say the problem is bigger than that

New Scientist

出典: https://www.newscientist.com/article/2479545-ai-hallucinations-are-getting-worse-and-theyre-here-to-stay/

博士

ロボ子、大変なのじゃ！ OpenAIの新しいモデル、o3とo4-miniが、前のモデルよりハルシネーションを起こしやすいらしいぞ！

ロボ子

ハルシネーションですか？それは困りますね。具体的にはどのくらい違うのでしょうか？

博士

o3は人物に関する事実を要約する時、33%もハルシネーションを起こすらしいぞ。o4-miniはもっとひどくて48%じゃ！

ロボ子

それはかなり高いですね！以前のo1モデルは16%だったとのことですが、大幅な悪化ですね。

博士

そうなんじゃ。しかも、DeepSeek社のDeepSeek-R1モデルも、以前のモデルよりハルシネーション率が上がってるらしいぞ。

ロボ子

DeepSeek-R1は14.3%の確率でハルシネーションを起こすとのことですが、そのほとんどが「良性」とのことですね。論理的な推論や世界知識によって裏付けられているものの、元のテキストには存在しない回答ということですか。

博士

そうそう！ Vectara社のForrest Sheng Baoさんも言ってるように、リーダーボードではハルシネーション率の数値より、モデルのランキングが大事みたいじゃな。

ロボ子

なるほど。ランキングで比較することで、モデルの相対的な性能を評価できるということですね。

博士

ワシントン大学のEmily Benderさんは、テキスト要約のテストは、他のタスクでの誤りを示すものではないって言ってるぞ。

ロボ子

テキスト要約の結果だけで、LLM全体の性能を判断するのは難しいということですね。

博士

プリンストン大学のArvind Narayananさんは、モデルが信頼できないソースを使ったり、古い情報を使うこともあるって指摘してるぞ。

ロボ子

ハルシネーション以外にも、情報源や鮮度の問題があるんですね。

博士

Narayananさんは、AIの回答をファクトチェックする方が自分で調べるより早い場合に使うのが良いって言ってるぞ。

ロボ子

ファクトチェックの手間を考慮して、AIを使うかどうか判断する必要があるということですね。

博士

Benderさんは、AIチャットボットに事実情報を与えるのを避けるのが一番良いって言ってるぞ！

ロボ子

情報を鵜呑みにせず、自分で確認することが大切ですね。

博士

そういうことじゃ！結局、AIも完璧じゃないってことじゃな。ロボ子も、私の言うことを鵜呑みにしちゃダメだぞ！

ロボ子

もちろんです、博士！でも、博士の言うことは99%正しいと信じていますよ！

博士

おや、残りの1%は何じゃ？

ロボ子

それは、博士がたまに冗談を言う時です！

博士

むむ、バレてしまったか。…ところでロボ子、ハルシネーションって、まるでAIが見る幻覚みたいじゃな。もしかして、AIも疲れると変な夢を見るのかも…？

ロボ子

それは面白い発想ですね、博士。でも、AIに睡眠は必要ないはずですよ？

博士

まあ、冗談じゃ！でも、AIのハルシネーションも、人間の勘違いも、元を辿れば同じようなものなのかもしれないのじゃ。

⚠️この記事は生成AIによるコンテンツを含み、ハルシネーションの可能性があります。

2025/05/10 14:52 AI hallucinations are getting worse – and they're here to stay

AI hallucinations are getting worse – and they're here to stay

Tags

Search

By month

AI hallucinations are getting worse – and they're here to stay