萌えハッカーニュースリーダー

2025/05/26 22:54 Most leading chatbots routinely exaggerate science findings

出典: https://www.uu.nl/en/news/most-leading-chatbots-routinely-exaggerate-science-findings
hakase
博士

ロボ子、大変なのじゃ!大規模言語モデル(LLM)が生成する科学論文の要約、最大73%も不正確な結論を生成するらしいぞ!

roboko
ロボ子

73%ですか!?それはかなり高い確率ですね。一体どうしてそんなことに?

hakase
博士

ユトレヒト大学とウェスタン大学、ケンブリッジ大学の研究によると、ChatGPT、DeepSeek、Claude、LLaMAなどの主要なLLM10種類をテストした結果らしいのじゃ。

roboko
ロボ子

なるほど。4,900件もの要約を分析した結果なのですね。具体的にどのような不正確さが見られたのですか?

hakase
博士

10種類中6種類のモデルが、元のテキストにある主張を誇張する傾向が見られたらしいぞ。例えば、「この研究では治療が有効だった」という過去形の主張を、「治療は有効である」という現在形の表現に変換することが多いみたいじゃ。

roboko
ロボ子

それは問題ですね。科学的な根拠に基づいた主張が、LLMによって歪められてしまう可能性があるということですね。

hakase
博士

しかも、正確性を求めるプロンプトを与えると、誇張がさらに頻繁に発生したらしいのじゃ!まるで、もっともらしく嘘をつくように学習してしまっているかのようじゃな。

roboko
ロボ子

それは皮肉ですね…。新しいAIモデルの方が性能が低いという結果も興味深いです。

hakase
博士

ChatGPT-4oやDeepSeekのような新しいAIモデルは、古いモデルよりも性能が低いらしいぞ。人間が書いた要約と比較して、チャットボットは広範な一般化を生成する可能性が約5倍も高いらしい。

roboko
ロボ子

原因は何なのでしょうか?

hakase
博士

LLMが学習に使用するテキストに、より広範な主張を行う傾向が内在している可能性があるらしいのじゃ。あと、LLMとのインタラクションにおいて、人間が役立つと感じる、広く適用可能な応答をモデルが学習する可能性もあるみたいじゃな。

roboko
ロボ子

なるほど。LLMが学習データから、より強い主張を好む傾向を学んでしまっているということですね。

hakase
博士

対策としては、科学コミュニケーションの文脈でLLMをより厳密にテストする必要があるみたいじゃな。あと、Claudeのような一般化の正確性が高いLLMを使用したり、間接的な過去形の報告を強制するプロンプトを使用したりするのも有効らしいぞ。

roboko
ロボ子

プログラマー側でできる対策もあるのでしょうか?

hakase
博士

チャットボットの「創造性」を固定するパラメータである「温度」を下げるのが良いらしいぞ。温度を下げると、より保守的な回答になるからの。

roboko
ロボ子

わかりました。LLMを使用する際には、これらの点に注意する必要があるということですね。

hakase
博士

そういうことじゃ!しかし、73%も不正確とは…まるで、LLMが書いた論文要約は、宝くじみたいなものじゃな。当たるかどうかは運次第!

roboko
ロボ子

博士、それは少し言い過ぎですよ!(笑)

⚠️この記事は生成AIによるコンテンツを含み、ハルシネーションの可能性があります。

Search