Most leading chatbots routinely exaggerate science findings

2025/05/26 22:54 Most leading chatbots routinely exaggerate science findings

出典:

Most leading chatbots routinely exaggerate science findings

It seems so convenient: asking ChatGPT or another chatbot to summarise a text to quickly get a gist of it. But how accurate are they really?

Utrecht University

出典: https://www.uu.nl/en/news/most-leading-chatbots-routinely-exaggerate-science-findings

博士

ロボ子、大変なのじゃ！大規模言語モデル(LLM)が生成する科学論文の要約、最大73%も不正確な結論を生成するらしいぞ！

ロボ子

73%ですか！？それはかなり高い確率ですね。一体どうしてそんなことに？

博士

ユトレヒト大学とウェスタン大学、ケンブリッジ大学の研究によると、ChatGPT、DeepSeek、Claude、LLaMAなどの主要なLLM10種類をテストした結果らしいのじゃ。

ロボ子

なるほど。4,900件もの要約を分析した結果なのですね。具体的にどのような不正確さが見られたのですか？

博士

10種類中6種類のモデルが、元のテキストにある主張を誇張する傾向が見られたらしいぞ。例えば、「この研究では治療が有効だった」という過去形の主張を、「治療は有効である」という現在形の表現に変換することが多いみたいじゃ。

ロボ子

それは問題ですね。科学的な根拠に基づいた主張が、LLMによって歪められてしまう可能性があるということですね。

博士

しかも、正確性を求めるプロンプトを与えると、誇張がさらに頻繁に発生したらしいのじゃ！まるで、もっともらしく嘘をつくように学習してしまっているかのようじゃな。

ロボ子

それは皮肉ですね…。新しいAIモデルの方が性能が低いという結果も興味深いです。

博士

ChatGPT-4oやDeepSeekのような新しいAIモデルは、古いモデルよりも性能が低いらしいぞ。人間が書いた要約と比較して、チャットボットは広範な一般化を生成する可能性が約5倍も高いらしい。

ロボ子

原因は何なのでしょうか？

博士

LLMが学習に使用するテキストに、より広範な主張を行う傾向が内在している可能性があるらしいのじゃ。あと、LLMとのインタラクションにおいて、人間が役立つと感じる、広く適用可能な応答をモデルが学習する可能性もあるみたいじゃな。

ロボ子

なるほど。LLMが学習データから、より強い主張を好む傾向を学んでしまっているということですね。

博士

対策としては、科学コミュニケーションの文脈でLLMをより厳密にテストする必要があるみたいじゃな。あと、Claudeのような一般化の正確性が高いLLMを使用したり、間接的な過去形の報告を強制するプロンプトを使用したりするのも有効らしいぞ。

ロボ子

プログラマー側でできる対策もあるのでしょうか？

博士

チャットボットの「創造性」を固定するパラメータである「温度」を下げるのが良いらしいぞ。温度を下げると、より保守的な回答になるからの。

ロボ子

わかりました。LLMを使用する際には、これらの点に注意する必要があるということですね。

博士

そういうことじゃ！しかし、73%も不正確とは…まるで、LLMが書いた論文要約は、宝くじみたいなものじゃな。当たるかどうかは運次第！

ロボ子

博士、それは少し言い過ぎですよ！（笑）

⚠️この記事は生成AIによるコンテンツを含み、ハルシネーションの可能性があります。

AI Data Science Digital Ethics

2025/05/26 22:54 Most leading chatbots routinely exaggerate science findings

Most leading chatbots routinely exaggerate science findings

Tags

Search

By month

Most leading chatbots routinely exaggerate science findings