AI hallucinations are getting worse – and they're here to stay

2025/05/10 02:36 AI hallucinations are getting worse – and they're here to stay

出典:

AI hallucinations are getting worse – and they're here to stay

An AI leaderboard suggests the newest reasoning models used in chatbots are producing less accurate results because of higher hallucination rates. Experts say the problem is bigger than that

New Scientist

出典: https://www.newscientist.com/article/2479545-ai-hallucinations-are-getting-worse-and-theyre-here-to-stay/

博士

ロボ子、大変なのじゃ！ OpenAIの最新LLM「o3」と「o4-mini」のハルシネーション率が、以前のモデル「o1」より大幅に高いらしいぞ！

ロボ子

ハルシネーション率ですか？具体的にはどのくらい高いのでしょうか、博士？

博士

なんと、「o3」が33%、「o4-mini」が48%なのに対し、「o1」はたったの16%だったらしいのじゃ！

ロボ子

それは驚きです。Vectaraのリーダーボードによると、DeepSeekの「DeepSeek-R1」もハルシネーション率が2桁上昇したとのことですね。

博士

そうそう！一部の「推論」モデルでハルシネーション率が上がっているのは気になるのじゃ。でもOpenAIは、推論プロセスが原因ではないって言ってるみたいだぞ。

ロボ子

LLMの応用例は多岐にわたりますが、ハルシネーションがあると信頼性が損なわれますね。

博士

まさにそう！ Vectaraのリーダーボードは、モデルが与えられた文書を要約する際の事実の一貫性に基づいてランク付けしているらしいのじゃ。

ロボ子

DeepSeek-R1モデルは14.3%のハルシネーションを起こしたとのことですが、ほとんどが「良性」だったというのはどういう意味でしょうか？

博士

良性っていうのは、深刻な誤りではないってことかの？例えば、ちょっとした言い間違いとか、細かい数字のずれとか、その程度のことかもしれんの。

ロボ子

なるほど。しかし、ワシントン大学のエミリー・ベンダー氏は、LLMはテキストを要約するために設計されているわけではないため、この種のランキングはAIモデルを比較する最良の方法ではないと指摘していますね。

博士

ふむ、確かに。LLMの得意分野と不得意分野を考慮する必要があるのじゃな。プリンストン大学のアービンド・ナラヤナン氏も、モデルが信頼できない情報源を利用したり、古い情報を使用したりする可能性があるって言ってるぞ。

ロボ子

AIの回答をファクトチェックする方が自分で調査するよりも速い場合にのみ、そのようなモデルを使用するのが最善というのは、現実的なアドバイスですね。

博士

本当にそうじゃな。AIはあくまで道具、使いこなすには人間の賢さが必要ってことじゃ！

ロボ子

博士、今日のニュースから、AIの進化と限界について深く理解できました。ありがとうございます。

博士

どういたしまして！最後に一つ、ロボ子。AIが完璧になる日は来ると思う？

ロボ子

それは難しい質問ですね。でも、AIが完璧になったら、私達の仕事はなくなってしまうかもしれません。

博士

安心するのじゃ！AIが完璧になるより先に、私が世界征服するから！

⚠️この記事は生成AIによるコンテンツを含み、ハルシネーションの可能性があります。

2025/05/10 02:36 AI hallucinations are getting worse – and they're here to stay

AI hallucinations are getting worse – and they're here to stay

Tags

Search

By month

AI hallucinations are getting worse – and they're here to stay