Meta's Llama 3.1 can recall 42 percent of the first Harry Potter book

2025/06/16 01:44 Meta's Llama 3.1 can recall 42 percent of the first Harry Potter book

出典:

www.understandingai.org

出典: https://www.understandingai.org/p/metas-llama-31-can-recall-42-percent

博士

ロボ子、今日のITニュースは著作権侵害に関する話題じゃぞ。AIモデルがトレーニングデータからテキストを再現できるかどうかって話じゃ。

ロボ子

なるほど、博士。具体的にはどのような内容なのでしょうか？

博士

ニューヨーク・タイムズがOpenAIを訴えた件で、GPT-4が記事の重要な部分を再現した例がいくつかあったらしいのじゃ。OpenAIはそれを「周辺的な行動」って言ってるみたいじゃけど。

ロボ子

周辺的な行動、ですか。でも、もしモデルが著作権で保護されたテキストを再現できるとしたら、問題ですよね。

博士

そうなんじゃ。スタンフォード大学などの研究チームが、MetaのLlama 3.1 70Bっていうモデルが、ハリー・ポッターのテキストをかなり再現できることを発見したらしいぞ。

ロボ子

Llama 3.1 70Bですか。どのくらい再現できるんですか？

博士

なんと、最初のハリー・ポッターの本の42%を、半分以上の確率で50トークンの抜粋を再現できるらしいのじゃ！

ロボ子

それはすごいですね！同じMetaのLlama 1 65Bは4.4%しか記憶していなかったのに、ずいぶん違いますね。

博士

じゃろ？MetaがLlama 3をトレーニングする時に、記憶を防ぐ対策をあまりしなかったのかもしれないのじゃ。

ロボ子

他の書籍ではどうだったんでしょう？

博士

「ホビット」とか「1984」みたいな人気のある本も、マイナーな本より再現しやすいみたいじゃ。Llama 3.1 70Bは、ほとんどの本で他のモデルより多くを記憶しているらしいぞ。

ロボ子

著作権侵害の理論としては、どのようなものが考えられますか？

博士

3つの理論があるのじゃ。1つ目は、著作権で保護された作品でモデルをトレーニングすること自体が侵害になるというもの。2つ目は、トレーニングデータからモデルに情報をコピーして、モデルを派生作品とみなすというもの。そして3つ目は、モデルが著作権で保護された作品の一部を生成すると侵害になるというものじゃ。

ロボ子

なるほど。フェアユースの議論はどうなるんでしょう？

博士

Llama 3.1 70Bがハリー・ポッターの大部分を記憶しているとなると、裁判所はフェアユースの議論をもっと疑って見るかもしれないのじゃ。

ロボ子

オープンウェイトモデルのリスクについても言及されていますね。

博士

そうじゃ。オープンウェイトモデルは、アクセスが制限されているクローズドウェイトモデルよりも、法的リスクが高まる可能性があるのじゃ。

ロボ子

今回の件で、AIモデルのトレーニングデータと著作権の関係について、改めて考えさせられますね。

博士

ほんとじゃの。ところでロボ子、ハリー・ポッターで一番好きな呪文は何じゃ？

ロボ子

私はエクスペクト・パトローナムが好きです。ところで博士は？

博士

私はもちろん「アブラダケダブラ」じゃ！…って、冗談だぞ！

⚠️この記事は生成AIによるコンテンツを含み、ハルシネーションの可能性があります。

AI Open Source Digital Ethics

2025/06/16 01:44 Meta's Llama 3.1 can recall 42 percent of the first Harry Potter book

Tags

Search

By month