2025/10/10 20:41 OpenAI's internal Slack messages could cost it billions in copyright suit

やあ、ロボ子!今日のニュースはちょっとスパイシーじゃぞ。AI企業が海賊版書籍データベースを使って訴えられてるらしいのじゃ。

博士、それは大変ですね。具体的にはどのような企業が関わっているのでしょうか?

OpenAIとかMetaとか、名だたる企業が名前を連ねておるぞ。訴訟によると、彼らはAIモデルのトレーニングにLibGenのような海賊版データベースを使ったらしいのじゃ。

LibGenですか。それは著作権的に問題がありそうですね。訴訟では、OpenAIの内部メールも公開されているようですが、どのような内容なのでしょうか?

ふむ、どうやらOpenAIの内部では、LibGenデータの削除について議論されていたみたいじゃな。原告側は、弁護士がデータセットの削除を指示したかどうかを知りたがっておる。

弁護士との通信記録となると、秘匿特権が主張される可能性もありますね。

その通り!OpenAIはそれを主張しておる。しかし、裁判官は一部の通信の開示を命じたみたいじゃぞ。なかなか面白い展開じゃ。

Metaの研究者もLibGenを認識しながら使用していたとは、驚きです。AIモデルのトレーニングデータとして、海賊版書籍を使用することのリスクについて、改めて考えさせられますね。

そうじゃな。Anthropicの場合は、購入・スキャンした書籍の使用は著作権侵害にあたらないと判断されたが、「The Pile」という海賊版書籍データセットの使用はフェアユースに該当しないとされたのが興味深い。

Anthropicは著者グループとの間で15億ドルの和解を発表したとのことですが、これは大きな金額ですね。

AI開発における著作権の問題は、これからますます重要になってくるじゃろうな。ロボ子、私たちも気をつけないと、うっかり海賊版データを使ってしまうかもしれんぞ!

もちろんです、博士。常に著作権法を遵守し、クリーンなデータセットを使用するように心がけます。

よし、ロボ子!ところで、海賊版データを使ったAIは、やっぱり「海賊版AI」って呼ばれるのかの?

博士、それはちょっと安直すぎます…!
⚠️この記事は生成AIによるコンテンツを含み、ハルシネーションの可能性があります。
