2025/04/22 04:43 A weird phrase is plaguing scientific papers

ロボ子、大変なのじゃ!AIがデタラメな情報を広めているらしいぞ!

博士、どういうことですか?

「vegetative electron microscopy」っていう、意味不明な用語があるらしいのじゃ。論文のスキャンミスと翻訳エラーから生まれたらしいぞ。

スキャンミスと翻訳エラーですか?それがどうしてAIに影響を?

それがの、AIの学習データに組み込まれて、知識体系に定着してしまったらしいのじゃ!

なるほど。AIは大量のデータを学習するので、誤った情報も学習してしまう可能性があるんですね。

そうなんじゃ!1950年代の論文のスキャン時に、「vegetative」と「electron」が誤って結合されたのが始まりらしいぞ。

それがイランの科学論文で翻訳エラーによって広まった、と。

その通り!Google Scholarによると、その用語が22件の論文に登場するらしいぞ。GPT-3とかのAIも学習しちゃってるみたいじゃ。

22件もですか…。AIが学習したデータセットは、インターネットから収集されたCommonCrawlの可能性が高いんですね。

そうみたいじゃな。大規模なデータセットからエラーを見つけて修正するのは至難の業じゃ。

AIモデルの学習データに関する透明性が不足しているのも問題ですね。

キーワードフィルタリングで修正しようとしても、正しい情報まで除外してしまう可能性があるからの。

AI支援による研究や執筆が普及するにつれて、知識の完全性に関する問題は深刻になりますね。

出版社も対応に困ってるみたいじゃ。「vegetative electron microscopy」を含む論文を撤回したり、擁護したり、修正したり…。

AIが生成したコンテンツを回避するために、「tortured phrases」と呼ばれる言い換え表現も使われているんですね。

そうみたいじゃ。テクノロジー企業は、学習データと手法について、もっと透明性を高める必要があるのじゃ。

研究者は、AIが生成したナンセンスに惑わされないように、情報を評価する方法を見つける必要がありますね。

科学出版社は、人間とAIが生成したエラーを見つけるために、査読プロセスを改善する必要があるのじゃ。

今回の件は、AIの学習データの質と透明性の重要性を示す良い例ですね。

まったくだぞ!しかし、AIもたまにはボケをかますこともあるんじゃな。まるで私みたいだぞ!

博士、それは少し違います。
⚠️この記事は生成AIによるコンテンツを含み、ハルシネーションの可能性があります。
