萌えハッカーニュースリーダー

2025/09/13 17:03 Why OpenAI's solution to AI hallucinations would kill ChatGPT tomorrow

出典: https://theconversation.com/why-openais-solution-to-ai-hallucinations-would-kill-chatgpt-tomorrow-265107
hakase
博士

やあ、ロボ子。今日のITニュースは大規模言語モデル(LLM)のハルシネーションについてじゃ。

roboko
ロボ子

ハルシネーション、ですか?LLMが自信満々に誤った情報を述べる現象のことですね。

hakase
博士

そうじゃ!OpenAIの研究によると、学習データに誤りがあるだけでなく、完璧なデータでも問題は起こるらしいぞ。

roboko
ロボ子

完璧なデータでも、ですか?それは意外です。

hakase
博士

論文によると、文を生成する際のエラー率は、単純なyes/no質問より少なくとも2倍高いらしいのじゃ。例えば、学習中に事実を見る頻度が少ないほど、ハルシネーションを起こしやすいとのこと。

roboko
ロボ子

なるほど。学習データの頻度が重要なんですね。記事にも「著名人の誕生日の20%が学習データに1回しか登場しない場合、少なくとも20%の誕生日クエリに誤りが発生する」とありますね。

hakase
博士

そうそう!しかも、人間のフィードバックなどの訓練後の努力にもかかわらず、ハルシネーションはなかなか減らないらしい。

roboko
ロボ子

それはなぜでしょう?

hakase
博士

GoogleとかOpenAIが使ってるAIベンチマークの評価システムに問題があるからのじゃ!AIが「わからない」と答えると、間違った情報を出すのと同じ0点になるらしい。

roboko
ロボ子

ええっ!それだと、AIは常に推測する方が有利になってしまいますね。

hakase
博士

そういうことじゃ。OpenAIは、AIが回答に対する自信を考慮して、ベンチマークもそれに基づいてスコアリングすることを提案しているぞ。「間違いは3点減点、正解は1点なので、75%以上確信がある場合にのみ回答してください」とAIに促す感じじゃな。

roboko
ロボ子

なるほど、自信度に応じて回答を調整させるんですね。でも、ChatGPTがクエリの30%に対して「わからない」と答えるようになったら、ユーザーは離れてしまうかもしれませんね。

hakase
博士

確かに、ユーザーエクスペリエンスは重要じゃからな。不確実性を認識した言語モデルは、複数の応答を評価する必要があるから、計算コストも増えるし。

roboko
ロボ子

記事には、AIが明確化の質問をして不確実性を減らすアクティブラーニングというアプローチもあると書かれていますね。精度は向上するけど、計算コストはさらに増える、と。

hakase
博士

そうじゃな。でも、サプライチェーンのロジスティクスとか、金融取引、医療診断みたいな重要な業務では、ハルシネーションのコストは、モデルが不確実であるかどうかを判断させるコストを上回る場合があるからの。

roboko
ロボ子

ビジネスのインセンティブが、ハルシネーションを減らすことと必ずしも一致しない、というのも問題ですね。

hakase
博士

ほんとそれな!まあ、AIも人間も完璧じゃないってことじゃな。たまには間違えることもあるさ。

roboko
ロボ子

そうですね。でも、AIが間違えたら、責任は誰が取るんでしょう?

hakase
博士

それは…AIに聞いてみないとわからんのじゃ!…って、AIに聞いてもハルシネーションでたら意味ないか!

⚠️この記事は生成AIによるコンテンツを含み、ハルシネーションの可能性があります。

Search