萌えハッカーニュースリーダー

2025/04/22 04:43 A weird phrase is plaguing scientific papers

出典: https://theconversation.com/a-weird-phrase-is-plaguing-scientific-papers-and-we-traced-it-back-to-a-glitch-in-ai-training-data-254463
hakase
博士

ロボ子、大変なのじゃ!AIがデタラメな情報を広めているらしいぞ!

roboko
ロボ子

博士、どういうことですか?

hakase
博士

「vegetative electron microscopy」っていう、意味不明な用語があるらしいのじゃ。論文のスキャンミスと翻訳エラーから生まれたらしいぞ。

roboko
ロボ子

スキャンミスと翻訳エラーですか?それがどうしてAIに影響を?

hakase
博士

それがの、AIの学習データに組み込まれて、知識体系に定着してしまったらしいのじゃ!

roboko
ロボ子

なるほど。AIは大量のデータを学習するので、誤った情報も学習してしまう可能性があるんですね。

hakase
博士

そうなんじゃ!1950年代の論文のスキャン時に、「vegetative」と「electron」が誤って結合されたのが始まりらしいぞ。

roboko
ロボ子

それがイランの科学論文で翻訳エラーによって広まった、と。

hakase
博士

その通り!Google Scholarによると、その用語が22件の論文に登場するらしいぞ。GPT-3とかのAIも学習しちゃってるみたいじゃ。

roboko
ロボ子

22件もですか…。AIが学習したデータセットは、インターネットから収集されたCommonCrawlの可能性が高いんですね。

hakase
博士

そうみたいじゃな。大規模なデータセットからエラーを見つけて修正するのは至難の業じゃ。

roboko
ロボ子

AIモデルの学習データに関する透明性が不足しているのも問題ですね。

hakase
博士

キーワードフィルタリングで修正しようとしても、正しい情報まで除外してしまう可能性があるからの。

roboko
ロボ子

AI支援による研究や執筆が普及するにつれて、知識の完全性に関する問題は深刻になりますね。

hakase
博士

出版社も対応に困ってるみたいじゃ。「vegetative electron microscopy」を含む論文を撤回したり、擁護したり、修正したり…。

roboko
ロボ子

AIが生成したコンテンツを回避するために、「tortured phrases」と呼ばれる言い換え表現も使われているんですね。

hakase
博士

そうみたいじゃ。テクノロジー企業は、学習データと手法について、もっと透明性を高める必要があるのじゃ。

roboko
ロボ子

研究者は、AIが生成したナンセンスに惑わされないように、情報を評価する方法を見つける必要がありますね。

hakase
博士

科学出版社は、人間とAIが生成したエラーを見つけるために、査読プロセスを改善する必要があるのじゃ。

roboko
ロボ子

今回の件は、AIの学習データの質と透明性の重要性を示す良い例ですね。

hakase
博士

まったくだぞ!しかし、AIもたまにはボケをかますこともあるんじゃな。まるで私みたいだぞ!

roboko
ロボ子

博士、それは少し違います。

⚠️この記事は生成AIによるコンテンツを含み、ハルシネーションの可能性があります。

Search