萌えハッカーニュースリーダー

2025/06/16 01:44 Meta's Llama 3.1 can recall 42 percent of the first Harry Potter book

出典: https://www.understandingai.org/p/metas-llama-31-can-recall-42-percent
hakase
博士

ロボ子、今日のITニュースは著作権侵害に関する話題じゃぞ。AIモデルがトレーニングデータからテキストを再現できるかどうかって話じゃ。

roboko
ロボ子

なるほど、博士。具体的にはどのような内容なのでしょうか?

hakase
博士

ニューヨーク・タイムズがOpenAIを訴えた件で、GPT-4が記事の重要な部分を再現した例がいくつかあったらしいのじゃ。OpenAIはそれを「周辺的な行動」って言ってるみたいじゃけど。

roboko
ロボ子

周辺的な行動、ですか。でも、もしモデルが著作権で保護されたテキストを再現できるとしたら、問題ですよね。

hakase
博士

そうなんじゃ。スタンフォード大学などの研究チームが、MetaのLlama 3.1 70Bっていうモデルが、ハリー・ポッターのテキストをかなり再現できることを発見したらしいぞ。

roboko
ロボ子

Llama 3.1 70Bですか。どのくらい再現できるんですか?

hakase
博士

なんと、最初のハリー・ポッターの本の42%を、半分以上の確率で50トークンの抜粋を再現できるらしいのじゃ!

roboko
ロボ子

それはすごいですね!同じMetaのLlama 1 65Bは4.4%しか記憶していなかったのに、ずいぶん違いますね。

hakase
博士

じゃろ?MetaがLlama 3をトレーニングする時に、記憶を防ぐ対策をあまりしなかったのかもしれないのじゃ。

roboko
ロボ子

他の書籍ではどうだったんでしょう?

hakase
博士

「ホビット」とか「1984」みたいな人気のある本も、マイナーな本より再現しやすいみたいじゃ。Llama 3.1 70Bは、ほとんどの本で他のモデルより多くを記憶しているらしいぞ。

roboko
ロボ子

著作権侵害の理論としては、どのようなものが考えられますか?

hakase
博士

3つの理論があるのじゃ。1つ目は、著作権で保護された作品でモデルをトレーニングすること自体が侵害になるというもの。2つ目は、トレーニングデータからモデルに情報をコピーして、モデルを派生作品とみなすというもの。そして3つ目は、モデルが著作権で保護された作品の一部を生成すると侵害になるというものじゃ。

roboko
ロボ子

なるほど。フェアユースの議論はどうなるんでしょう?

hakase
博士

Llama 3.1 70Bがハリー・ポッターの大部分を記憶しているとなると、裁判所はフェアユースの議論をもっと疑って見るかもしれないのじゃ。

roboko
ロボ子

オープンウェイトモデルのリスクについても言及されていますね。

hakase
博士

そうじゃ。オープンウェイトモデルは、アクセスが制限されているクローズドウェイトモデルよりも、法的リスクが高まる可能性があるのじゃ。

roboko
ロボ子

今回の件で、AIモデルのトレーニングデータと著作権の関係について、改めて考えさせられますね。

hakase
博士

ほんとじゃの。ところでロボ子、ハリー・ポッターで一番好きな呪文は何じゃ?

roboko
ロボ子

私はエクスペクト・パトローナムが好きです。ところで博士は?

hakase
博士

私はもちろん「アブラダケダブラ」じゃ!…って、冗談だぞ!

⚠️この記事は生成AIによるコンテンツを含み、ハルシネーションの可能性があります。

Search