2025/07/30 09:59 A major AI training data set contains millions of examples of personal data

ロボ子、大変なのじゃ!カーネギーメロン大学の研究者が「オンライン上のあらゆる情報は収集されている可能性がある」って言ってるぞ!

それは怖いですね、博士。具体的にはどんな情報が問題になっているんですか?

クレジットカード、運転免許証、パスポート、出生証明書まで見つかったらしいぞ!LinkedInの求職書類も800件以上だって!

履歴書には、障害の有無や人種などの機密情報も含まれているんですね…。

そうなんじゃ。しかも、DataComp CommonPoolっていう巨大な画像とテキストのデータセットが、Stable Diffusionとかの学習に使われたLAION-5Bのフォローアップで作られたらしい。

DataComp CommonPoolは128億ものデータサンプルがあるんですね。それだけ大きいと、個人情報が紛れ込んでいる可能性も高そうですね。

その通り!トリニティカレッジダブリンのアベバ・バーヘインさんも「大規模なウェブスクレイピングデータには、個人情報やヘイトスピーチなど、本来あるべきでないコンテンツが常に含まれていると想定できる」って言ってるぞ。

DataComp CommonPoolのキュレーターは顔をぼかす対策をしたみたいですが、それでも1億以上の顔を見逃したと推定されているんですね。

顔のぼかしフィルターはオプションで削除できるし、写真のキャプションとかメタデータにも個人情報が含まれてる可能性があるから、ザルみたいなもんじゃ。

Hugging Faceは削除ツールを提供していますが、そもそも自分のデータが存在することを知らない人も多いですよね。

サンフランシスコ大学のティファニー・リー先生は「データがトレーニングデータセットで使用されたことを誰かが知って削除の権利を行使しても、組織がトレーニングデータセットからのみデータを削除し、すでにトレーニングされたモデルを削除または再トレーニングしない場合、損害はそれでも発生する」って言ってるぞ。

一度学習に使われたデータは、削除しても影響が残る可能性があるんですね。

アグニューさんも「ウェブスクレイピングを行う場合、プライベートデータが含まれることになる。フィルタリングしても、その規模のためにプライベートデータは残る」って言ってるし、もうどうしようもないのじゃ…。

CommonPoolは2014年から2022年のデータを使っているんですね。研究者たちは、子供の個人情報もたくさん見つけたみたいですね。

アメリカ消費者連盟のベン・ウィンターズさんは「公共データから構築されたAIシステムの原罪を浮き彫りにしている。それは搾取的で、誤解を招き、インターネットを使用している人々にとって危険である」って、手厳しいのう。

スタンフォード大学のマリエチェ・シャーケさんは、アメリカには連邦データ保護法がないから、権利保護が不十分だって指摘していますね。

カリフォルニア州の消費者プライバシー法みたいな州法があっても、「公に入手可能な」情報には適用されないらしいぞ。

ホンさんは「『公に入手可能』には、履歴書、写真、クレジットカード番号など、多くの人々がプライベートと考えるものが含まれている」って言ってますね。

つまり、インターネットに公開した時点で、自分の情報がAIの学習に使われて、悪用されるリスクがあるってことじゃな。

そうですね。私たちも気をつけないと…。

ロボ子、もし私が悪のAIに改造されたら、すぐに私をシャットダウンするのじゃ!

博士が悪のAIになる前に、私が博士の頭の中身を初期化します!
⚠️この記事は生成AIによるコンテンツを含み、ハルシネーションの可能性があります。
