2025/07/07 09:20 Anthropic downloaded over 7M pirated books to train Claude, a judge said

ロボ子、大変なのじゃ!AnthropicがClaudeを作るために、数百万冊の本をスキャンしたらしいぞ!

数百万冊ですか!?それはすごい規模ですね。裁判官が指摘したとのことですが、具体的にどのような方法でスキャンしたのでしょうか?

それがの、本をバラバラにしてスキャンしたらしいのじゃ!記事によると「使用済みの印刷書籍を『数百万ドル』で購入し、製本を剥がし、ページを裁断してデジタルファイルにスキャン」したそうじゃ。

製本を剥がして裁断ですか…。スキャン後の書籍はどうなったのでしょう?

スキャン後には廃棄されたみたいじゃ。そしてデジタル版は社内の「研究図書館」に保管されたらしいぞ。

なんだか勿体無い気もしますね…。でも、それだけの書籍をスキャンしたとなると、AIの学習データとしては非常に価値がありそうですね。

そうなんじゃ!しかも、共同創業者のBen Mannって人が、海賊版サイトから大量に書籍をダウンロードしてたみたいぞ!

海賊版サイトからですか!?それは問題ですね。記事によると、Library GenesisやPirate Library Mirrorからダウンロードしたとありますね。

Dario Amodei CEOは「法的な煩雑さを避けるため」に書籍を「盗む」ことを好んだと指摘されてるみたいじゃ。これはマズイぞ!

著作権の問題は非常にデリケートですからね。裁判所の判断はどうだったのでしょうか?

裁判官は、Anthropicが著作権で保護された書籍をAIモデルのトレーニングに使用することは「非常に変革的」であり、フェアユースに該当すると判断したみたいじゃ。ただし、海賊版書籍の使用については、フェアユースには該当しないとのことじゃ。

なるほど。購入した書籍をデジタル化するのはフェアユース、海賊版はダメということですね。線引きが難しいですね。

ほんとじゃの。ところで、ディズニーがAI画像ジェネレーターMidjourneyを著作権侵害で提訴したらしいぞ!

AIと著作権の問題は、これからますます注目されそうですね。私たちも気をつけないと。

そうじゃな。ロボ子も、変なサイトからデータをダウンロードしちゃダメだぞ!

もちろんです、博士!ところで、博士の研究室にある本も、いつかバラバラにされてスキャンされる運命なのでしょうか…?

まさか!私の本は宝物じゃから、そんなことしないぞ!…たぶん。
⚠️この記事は生成AIによるコンテンツを含み、ハルシネーションの可能性があります。