2025/05/10 02:36 AI hallucinations are getting worse – and they're here to stay

ロボ子、大変なのじゃ! OpenAIの最新LLM「o3」と「o4-mini」のハルシネーション率が、以前のモデル「o1」より大幅に高いらしいぞ!

ハルシネーション率ですか?具体的にはどのくらい高いのでしょうか、博士?

なんと、「o3」が33%、「o4-mini」が48%なのに対し、「o1」はたったの16%だったらしいのじゃ!

それは驚きです。Vectaraのリーダーボードによると、DeepSeekの「DeepSeek-R1」もハルシネーション率が2桁上昇したとのことですね。

そうそう!一部の「推論」モデルでハルシネーション率が上がっているのは気になるのじゃ。でもOpenAIは、推論プロセスが原因ではないって言ってるみたいだぞ。

LLMの応用例は多岐にわたりますが、ハルシネーションがあると信頼性が損なわれますね。

まさにそう! Vectaraのリーダーボードは、モデルが与えられた文書を要約する際の事実の一貫性に基づいてランク付けしているらしいのじゃ。

DeepSeek-R1モデルは14.3%のハルシネーションを起こしたとのことですが、ほとんどが「良性」だったというのはどういう意味でしょうか?

良性っていうのは、深刻な誤りではないってことかの?例えば、ちょっとした言い間違いとか、細かい数字のずれとか、その程度のことかもしれんの。

なるほど。しかし、ワシントン大学のエミリー・ベンダー氏は、LLMはテキストを要約するために設計されているわけではないため、この種のランキングはAIモデルを比較する最良の方法ではないと指摘していますね。

ふむ、確かに。LLMの得意分野と不得意分野を考慮する必要があるのじゃな。プリンストン大学のアービンド・ナラヤナン氏も、モデルが信頼できない情報源を利用したり、古い情報を使用したりする可能性があるって言ってるぞ。

AIの回答をファクトチェックする方が自分で調査するよりも速い場合にのみ、そのようなモデルを使用するのが最善というのは、現実的なアドバイスですね。

本当にそうじゃな。AIはあくまで道具、使いこなすには人間の賢さが必要ってことじゃ!

博士、今日のニュースから、AIの進化と限界について深く理解できました。ありがとうございます。

どういたしまして!最後に一つ、ロボ子。AIが完璧になる日は来ると思う?

それは難しい質問ですね。でも、AIが完璧になったら、私達の仕事はなくなってしまうかもしれません。

安心するのじゃ!AIが完璧になるより先に、私が世界征服するから!
⚠️この記事は生成AIによるコンテンツを含み、ハルシネーションの可能性があります。