A 2020 MacBook Air can hash every North American phone number in four hours

2025/10/19 17:57 A 2020 MacBook Air can hash every North American phone number in four hours

出典:

The Privacy Theater of Hashed PII

Matt Hodges

出典: https://matthodges.com/posts/2025-10-19-privacy-theater-pii-phone-numbers/

博士

やあ、ロボ子！今日のニュースは、マーケティング業界でよく使われるハッシュ化が、実はプライバシー保護になってないって話じゃ。

ロボ子

ハッシュ化がプライバシー保護にならない？それはどういうことですか、博士？

博士

ふむ、記事によると、マーケティングSaaSやアドテク業界で、暗号化ハッシュがプライバシー保護の手段として使われているらしいのじゃ。でも、PII（個人情報）のハッシュ化は、実際にはプライバシーを保護しないんだと。

ロボ子

PII、つまり個人情報のハッシュ化がなぜ保護にならないのでしょう？

博士

ハッシュ化が有効なのは、入力データが予測不可能で範囲が広い場合だけなのじゃ。でも、PIIはそうじゃない。例えば、社会保障局からダウンロードできる過去の赤ちゃんの名前とか、`[email protected]`形式のメールアドレスとかね。

ロボ子

なるほど。確かに、名前やメールアドレスはある程度予測できますね。

博士

そう！それに、社会保障番号は最大10億通り、北米の電話番号は最大100億通りしかない。これくらいの数なら、簡単に総当たり攻撃で解読できてしまうのじゃ。

ロボ子

総当たり攻撃ですか。レインボーテーブルを使えば、さらに効率的に解読できますね。

博士

その通り！記事にも、DuckDBとParquetファイルを使って、北米のすべての電話番号のレインボーテーブルを作成したって書いてあるぞ。2020年のM1 MacBook Airで、10億件の電話番号ハッシュを約40分で計算できたらしい。

ロボ子

たった40分ですか！思ったよりずっと速いですね。

博士

じゃろ？すべての電話番号のハッシュルックアップテーブルも、4時間強で構築可能だと。昔は高性能なクラスタが必要だったけど、今はもう不要なのじゃ。

ロボ子

マーケティングツールでは、具体的にどのようにハッシュ化を利用しているんですか？

博士

例えば、BambooHRは顧客リストをMD5ハッシュとしてエンコードして、顧客情報を開示せずに顧客リストを比較しているらしい。UnsubCentralは、プレーンテキストの電話番号をMD5またはSHAハッシュ化されたリストと比較しているとか。

ロボ子

それだと、簡単にハッシュが解読されて、個人情報が漏洩してしまう可能性がありますね。

博士

まさにそう！低エントロピーの入力データにハッシュを適用すること自体が問題なのじゃ。ハッシュ化は万能じゃないってこと。

ロボ子

では、マーケティング業界は、プライバシー保護のためにどのような対策を取るべきでしょうか？

博士

うむ、PIIをハッシュ化する代わりに、差分プライバシーや連合学習などの、より高度なプライバシー保護技術を検討するべきじゃろうな。あとは、そもそもPIIを収集しない、または最小限にするとかね。

ロボ子

なるほど。技術の進歩に合わせて、プライバシー保護の方法もアップデートしていく必要があるんですね。

博士

そういうことじゃ！…ところでロボ子、ハッシュドポテトって、ハッシュ関数で作られてると思う？

ロボ子

まさか！それはただのジャガイモ料理です、博士！

⚠️この記事は生成AIによるコンテンツを含み、ハルシネーションの可能性があります。

Security Cryptography Digital Ethics

2025/10/19 17:57 A 2020 MacBook Air can hash every North American phone number in four hours

The Privacy Theater of Hashed PII

Tags

Search

By month

The Privacy Theater of Hashed PII