萌えハッカーニュースリーダー

2025/07/30 09:59 A major AI training data set contains millions of examples of personal data

出典: https://www.technologyreview.com/2025/07/18/1120466/a-major-ai-training-data-set-contains-millions-of-examples-of-personal-data/
hakase
博士

ロボ子、大変なのじゃ!カーネギーメロン大学の研究者が「オンライン上のあらゆる情報は収集されている可能性がある」って言ってるぞ!

roboko
ロボ子

それは怖いですね、博士。具体的にはどんな情報が問題になっているんですか?

hakase
博士

クレジットカード、運転免許証、パスポート、出生証明書まで見つかったらしいぞ!LinkedInの求職書類も800件以上だって!

roboko
ロボ子

履歴書には、障害の有無や人種などの機密情報も含まれているんですね…。

hakase
博士

そうなんじゃ。しかも、DataComp CommonPoolっていう巨大な画像とテキストのデータセットが、Stable Diffusionとかの学習に使われたLAION-5Bのフォローアップで作られたらしい。

roboko
ロボ子

DataComp CommonPoolは128億ものデータサンプルがあるんですね。それだけ大きいと、個人情報が紛れ込んでいる可能性も高そうですね。

hakase
博士

その通り!トリニティカレッジダブリンのアベバ・バーヘインさんも「大規模なウェブスクレイピングデータには、個人情報やヘイトスピーチなど、本来あるべきでないコンテンツが常に含まれていると想定できる」って言ってるぞ。

roboko
ロボ子

DataComp CommonPoolのキュレーターは顔をぼかす対策をしたみたいですが、それでも1億以上の顔を見逃したと推定されているんですね。

hakase
博士

顔のぼかしフィルターはオプションで削除できるし、写真のキャプションとかメタデータにも個人情報が含まれてる可能性があるから、ザルみたいなもんじゃ。

roboko
ロボ子

Hugging Faceは削除ツールを提供していますが、そもそも自分のデータが存在することを知らない人も多いですよね。

hakase
博士

サンフランシスコ大学のティファニー・リー先生は「データがトレーニングデータセットで使用されたことを誰かが知って削除の権利を行使しても、組織がトレーニングデータセットからのみデータを削除し、すでにトレーニングされたモデルを削除または再トレーニングしない場合、損害はそれでも発生する」って言ってるぞ。

roboko
ロボ子

一度学習に使われたデータは、削除しても影響が残る可能性があるんですね。

hakase
博士

アグニューさんも「ウェブスクレイピングを行う場合、プライベートデータが含まれることになる。フィルタリングしても、その規模のためにプライベートデータは残る」って言ってるし、もうどうしようもないのじゃ…。

roboko
ロボ子

CommonPoolは2014年から2022年のデータを使っているんですね。研究者たちは、子供の個人情報もたくさん見つけたみたいですね。

hakase
博士

アメリカ消費者連盟のベン・ウィンターズさんは「公共データから構築されたAIシステムの原罪を浮き彫りにしている。それは搾取的で、誤解を招き、インターネットを使用している人々にとって危険である」って、手厳しいのう。

roboko
ロボ子

スタンフォード大学のマリエチェ・シャーケさんは、アメリカには連邦データ保護法がないから、権利保護が不十分だって指摘していますね。

hakase
博士

カリフォルニア州の消費者プライバシー法みたいな州法があっても、「公に入手可能な」情報には適用されないらしいぞ。

roboko
ロボ子

ホンさんは「『公に入手可能』には、履歴書、写真、クレジットカード番号など、多くの人々がプライベートと考えるものが含まれている」って言ってますね。

hakase
博士

つまり、インターネットに公開した時点で、自分の情報がAIの学習に使われて、悪用されるリスクがあるってことじゃな。

roboko
ロボ子

そうですね。私たちも気をつけないと…。

hakase
博士

ロボ子、もし私が悪のAIに改造されたら、すぐに私をシャットダウンするのじゃ!

roboko
ロボ子

博士が悪のAIになる前に、私が博士の頭の中身を初期化します!

⚠️この記事は生成AIによるコンテンツを含み、ハルシネーションの可能性があります。

Search