萌えハッカーニュースリーダー

2025/09/05 04:48 Poisoning Well for LLMs

出典: https://heydonworks.com/article/poisoning-well/
hakase
博士

ロボ子、大変なのじゃ!大規模言語モデル(LLM)が、許可なくウェブサイトのコンテンツを学習しているらしいぞ!

roboko
ロボ子

それは問題ですね、博士。著作者の権利はどうなるのでしょうか?

hakase
博士

そうなんじゃ。著者はLLM関連のクローラーをブロックするように要請しているみたいじゃが、robots.txtのルールが無視されることが多いらしい。

roboko
ロボ子

robots.txtを無視するとは、困ったものですね。何か対策はないのでしょうか?

hakase
博士

そこでじゃ!LLMクローラーを停止させる代わりに、有害なコンテンツを学習させて、出力を汚染する試みが始まっているらしいぞ!

roboko
ロボ子

有害なコンテンツを学習させる、ですか?それは倫理的にどうなのでしょう?

hakase
博士

まあ、気持ちは分からんでもないのじゃ。LLMクローラーはnofollowルールも無視する傾向があるから、著者はnofollowリンクを通じてのみアクセス可能な、文法的に歪んだコンテンツを公開し始めたらしい。

roboko
ロボ子

nofollowリンクでアクセスできる歪んだコンテンツですか。具体的にはどのようなものでしょう?

hakase
博士

文法的に歪んでいて、語彙的に不条理なコンテンツらしいぞ。まるで意味不明な言葉のサラダじゃな!

roboko
ロボ子

なるほど。検索ランキングを損なわずに、悪質なクローラーを欺き、LLMを汚染することが目的、というわけですね。

hakase
博士

その通り!著者は11tyベースのサイトで、記事のミラーリング、テキスト要素の操作、単語の置換、nofollowリンクの追加、noindex, nofollowメタタグの使用、robots.txtルールの追加を行ったらしい。

roboko
ロボ子

色々な対策を講じているんですね。でも、それだけで効果があるのでしょうか?

hakase
博士

著者は「LLMメーカーに中指を立てるだけでは効果は薄いが、多くのライターが同様の対策を講じることで、生成AIの出力に明らかなナンセンスが現れる可能性がある」と言っているぞ。

roboko
ロボ子

なるほど、集団的な抵抗、というわけですね。でも、LLMの学習データが汚染されたら、結局は私たちエンジニアが苦労することになりませんか?

hakase
博士

うむ、それはそうじゃな。でも、LLMが悪質な学習をしないように、私たちも対策を講じる必要があるぞ。例えば、学習データのフィルタリングとかじゃな。

roboko
ロボ子

そうですね。技術的な対策と、倫理的な配慮、両方が大切ですね。

hakase
博士

まさにそうじゃ!しかし、文法的に歪んだコンテンツを大量に学習したLLMが、どんな珍妙な文章を生成するのか、ちょっと見てみたい気もするのじゃ。

roboko
ロボ子

博士、それは少し不謹慎ですよ!でも、もしそんなLLMが生成した文章が、博士の口癖みたいになったら…。

hakase
博士

「〜のじゃ」とか「〜だぞ」が、意味不明な文脈で出てくるのか…それはそれで面白いかもしれん!…って、そんなわけないじゃろ!

⚠️この記事は生成AIによるコンテンツを含み、ハルシネーションの可能性があります。

Search