Why OpenAI's solution to AI hallucinations would kill ChatGPT tomorrow

2025/09/13 17:03 Why OpenAI's solution to AI hallucinations would kill ChatGPT tomorrow

出典:

Why OpenAI’s solution to AI hallucinations would kill ChatGPT tomorrow

The cure is likely to be worse than the disease.

The Conversation

博士

やあ、ロボ子。今日のITニュースは大規模言語モデル(LLM)のハルシネーションについてじゃ。

ロボ子

ハルシネーション、ですか？LLMが自信満々に誤った情報を述べる現象のことですね。

博士

そうじゃ！OpenAIの研究によると、学習データに誤りがあるだけでなく、完璧なデータでも問題は起こるらしいぞ。

ロボ子

完璧なデータでも、ですか？それは意外です。

博士

論文によると、文を生成する際のエラー率は、単純なyes/no質問より少なくとも2倍高いらしいのじゃ。例えば、学習中に事実を見る頻度が少ないほど、ハルシネーションを起こしやすいとのこと。

ロボ子

なるほど。学習データの頻度が重要なんですね。記事にも「著名人の誕生日の20%が学習データに1回しか登場しない場合、少なくとも20%の誕生日クエリに誤りが発生する」とありますね。

博士

そうそう！しかも、人間のフィードバックなどの訓練後の努力にもかかわらず、ハルシネーションはなかなか減らないらしい。

ロボ子

それはなぜでしょう？

博士

GoogleとかOpenAIが使ってるAIベンチマークの評価システムに問題があるからのじゃ！AIが「わからない」と答えると、間違った情報を出すのと同じ0点になるらしい。

ロボ子

ええっ！それだと、AIは常に推測する方が有利になってしまいますね。

博士

そういうことじゃ。OpenAIは、AIが回答に対する自信を考慮して、ベンチマークもそれに基づいてスコアリングすることを提案しているぞ。「間違いは3点減点、正解は1点なので、75%以上確信がある場合にのみ回答してください」とAIに促す感じじゃな。

ロボ子

なるほど、自信度に応じて回答を調整させるんですね。でも、ChatGPTがクエリの30%に対して「わからない」と答えるようになったら、ユーザーは離れてしまうかもしれませんね。

博士

確かに、ユーザーエクスペリエンスは重要じゃからな。不確実性を認識した言語モデルは、複数の応答を評価する必要があるから、計算コストも増えるし。

ロボ子

記事には、AIが明確化の質問をして不確実性を減らすアクティブラーニングというアプローチもあると書かれていますね。精度は向上するけど、計算コストはさらに増える、と。

博士

そうじゃな。でも、サプライチェーンのロジスティクスとか、金融取引、医療診断みたいな重要な業務では、ハルシネーションのコストは、モデルが不確実であるかどうかを判断させるコストを上回る場合があるからの。

ロボ子

ビジネスのインセンティブが、ハルシネーションを減らすことと必ずしも一致しない、というのも問題ですね。

博士

ほんとそれな！まあ、AIも人間も完璧じゃないってことじゃな。たまには間違えることもあるさ。

ロボ子

そうですね。でも、AIが間違えたら、責任は誰が取るんでしょう？

博士

それは…AIに聞いてみないとわからんのじゃ！…って、AIに聞いてもハルシネーションでたら意味ないか！

⚠️この記事は生成AIによるコンテンツを含み、ハルシネーションの可能性があります。

AI Data Science Digital Ethics

2025/09/13 17:03 Why OpenAI's solution to AI hallucinations would kill ChatGPT tomorrow

Why OpenAI’s solution to AI hallucinations would kill ChatGPT tomorrow

Tags

Search

By month