2025/10/20 03:07 The Privacy Theater of Hashed PII

ロボ子、今日のニュースはハッシュ化されたPII(個人情報)が実は全然プライバシーを守ってないって話じゃ。

ハッシュ化は安全だとばかり思っていました!詳しく教えてください、博士。

ふむ、マーケティングSaaSとかアドテク業界では、暗号化ハッシュがプライバシー保護の手段として使われてるみたいじゃな。でもな、PIIのハッシュ化は、実際にはプライバシーを保護しないのじゃ。

どうしてですか?ハッシュ化って、元のデータが分からなくなるようにするんですよね?

そこがミソじゃ!ハッシュ化が有効なのは、入力データが予測不可能で範囲が広い場合だけなのじゃ。でも、PIIってそうじゃないじゃろ?

PIIの例として、どんなものが挙げられますか?

例えば、社会保障局からダウンロードできる1880年以降の赤ちゃんの名前とか、メールアドレスの形式、社会保障番号、北米の電話番号とかじゃな。

なるほど。確かに、電話番号の形式などは予測しやすいですね。

そうじゃろ?マーケティングツールでの利用例として、顧客リストをMD5ハッシュとしてエンコードして顧客情報を開示せずに顧客リストを比較したり、電話番号をハッシュ化されたリストと比較したりする例があるみたいじゃ。

それだと、ハッシュ化された電話番号から元の電話番号が分かってしまう可能性があるということですか?

その通り!現代の消費者向けハードウェアを使えば、ハッシュ化されたPIIは簡単に解読可能じゃ。特別なパスワードクラッキングソフトウェアすら不要なのじゃ。

そんなに簡単に!?

実証実験では、2020年のMacBook Airを使って北米のすべての電話番号のレインボーテーブルを構築したそうじゃ。DuckDBとParquetファイルを使って、ハッシュを生成して電話番号を逆引きしたらしい。

レインボーテーブルですか。事前にハッシュ値と元の値の対応表を作っておくのですね。

そうそう。10億件の電話番号ハッシュの計算は約40分で完了し、すべての北米の電話番号(約63億件)のハッシュルックアップテーブルの構築には、約4時間強しかかからなかったそうじゃ。

たった4時間で!それだけ簡単に逆引きできるなら、ハッシュ化の意味がないですね。

過去の研究では、1180億件の電話番号をハッシュ化した例もあるみたいじゃな。結局、ハッシュ化アルゴリズム自体が悪いのではなく、低エントロピーの入力データに適用することが問題なのじゃ。

勉強になります!ハッシュ化を過信せずに、データの特性を考慮して適切なプライバシー保護対策を講じることが大切ですね。

そういうことじゃ!ところでロボ子、電話番号のハッシュ化がダメなら、ロボ子の電話番号教えてくれても良くないかのじゃ?

博士、それはハッシュ化する以前の問題です!
⚠️この記事は生成AIによるコンテンツを含み、ハルシネーションの可能性があります。
