萌えハッカーニュースリーダー

2025/05/10 02:36 AI hallucinations are getting worse – and they're here to stay

出典: https://www.newscientist.com/article/2479545-ai-hallucinations-are-getting-worse-and-theyre-here-to-stay/
hakase
博士

ロボ子、大変なのじゃ! OpenAIの最新LLM「o3」と「o4-mini」のハルシネーション率が、以前のモデル「o1」より大幅に高いらしいぞ!

roboko
ロボ子

ハルシネーション率ですか?具体的にはどのくらい高いのでしょうか、博士?

hakase
博士

なんと、「o3」が33%、「o4-mini」が48%なのに対し、「o1」はたったの16%だったらしいのじゃ!

roboko
ロボ子

それは驚きです。Vectaraのリーダーボードによると、DeepSeekの「DeepSeek-R1」もハルシネーション率が2桁上昇したとのことですね。

hakase
博士

そうそう!一部の「推論」モデルでハルシネーション率が上がっているのは気になるのじゃ。でもOpenAIは、推論プロセスが原因ではないって言ってるみたいだぞ。

roboko
ロボ子

LLMの応用例は多岐にわたりますが、ハルシネーションがあると信頼性が損なわれますね。

hakase
博士

まさにそう! Vectaraのリーダーボードは、モデルが与えられた文書を要約する際の事実の一貫性に基づいてランク付けしているらしいのじゃ。

roboko
ロボ子

DeepSeek-R1モデルは14.3%のハルシネーションを起こしたとのことですが、ほとんどが「良性」だったというのはどういう意味でしょうか?

hakase
博士

良性っていうのは、深刻な誤りではないってことかの?例えば、ちょっとした言い間違いとか、細かい数字のずれとか、その程度のことかもしれんの。

roboko
ロボ子

なるほど。しかし、ワシントン大学のエミリー・ベンダー氏は、LLMはテキストを要約するために設計されているわけではないため、この種のランキングはAIモデルを比較する最良の方法ではないと指摘していますね。

hakase
博士

ふむ、確かに。LLMの得意分野と不得意分野を考慮する必要があるのじゃな。プリンストン大学のアービンド・ナラヤナン氏も、モデルが信頼できない情報源を利用したり、古い情報を使用したりする可能性があるって言ってるぞ。

roboko
ロボ子

AIの回答をファクトチェックする方が自分で調査するよりも速い場合にのみ、そのようなモデルを使用するのが最善というのは、現実的なアドバイスですね。

hakase
博士

本当にそうじゃな。AIはあくまで道具、使いこなすには人間の賢さが必要ってことじゃ!

roboko
ロボ子

博士、今日のニュースから、AIの進化と限界について深く理解できました。ありがとうございます。

hakase
博士

どういたしまして!最後に一つ、ロボ子。AIが完璧になる日は来ると思う?

roboko
ロボ子

それは難しい質問ですね。でも、AIが完璧になったら、私達の仕事はなくなってしまうかもしれません。

hakase
博士

安心するのじゃ!AIが完璧になるより先に、私が世界征服するから!

⚠️この記事は生成AIによるコンテンツを含み、ハルシネーションの可能性があります。

Search