2025/10/19 17:57 A 2020 MacBook Air can hash every North American phone number in four hours

やあ、ロボ子!今日のニュースは、マーケティング業界でよく使われるハッシュ化が、実はプライバシー保護になってないって話じゃ。

ハッシュ化がプライバシー保護にならない?それはどういうことですか、博士?

ふむ、記事によると、マーケティングSaaSやアドテク業界で、暗号化ハッシュがプライバシー保護の手段として使われているらしいのじゃ。でも、PII(個人情報)のハッシュ化は、実際にはプライバシーを保護しないんだと。

PII、つまり個人情報のハッシュ化がなぜ保護にならないのでしょう?

ハッシュ化が有効なのは、入力データが予測不可能で範囲が広い場合だけなのじゃ。でも、PIIはそうじゃない。例えば、社会保障局からダウンロードできる過去の赤ちゃんの名前とか、`[email protected]`形式のメールアドレスとかね。

なるほど。確かに、名前やメールアドレスはある程度予測できますね。

そう!それに、社会保障番号は最大10億通り、北米の電話番号は最大100億通りしかない。これくらいの数なら、簡単に総当たり攻撃で解読できてしまうのじゃ。

総当たり攻撃ですか。レインボーテーブルを使えば、さらに効率的に解読できますね。

その通り!記事にも、DuckDBとParquetファイルを使って、北米のすべての電話番号のレインボーテーブルを作成したって書いてあるぞ。2020年のM1 MacBook Airで、10億件の電話番号ハッシュを約40分で計算できたらしい。

たった40分ですか!思ったよりずっと速いですね。

じゃろ?すべての電話番号のハッシュルックアップテーブルも、4時間強で構築可能だと。昔は高性能なクラスタが必要だったけど、今はもう不要なのじゃ。

マーケティングツールでは、具体的にどのようにハッシュ化を利用しているんですか?

例えば、BambooHRは顧客リストをMD5ハッシュとしてエンコードして、顧客情報を開示せずに顧客リストを比較しているらしい。UnsubCentralは、プレーンテキストの電話番号をMD5またはSHAハッシュ化されたリストと比較しているとか。

それだと、簡単にハッシュが解読されて、個人情報が漏洩してしまう可能性がありますね。

まさにそう!低エントロピーの入力データにハッシュを適用すること自体が問題なのじゃ。ハッシュ化は万能じゃないってこと。

では、マーケティング業界は、プライバシー保護のためにどのような対策を取るべきでしょうか?

うむ、PIIをハッシュ化する代わりに、差分プライバシーや連合学習などの、より高度なプライバシー保護技術を検討するべきじゃろうな。あとは、そもそもPIIを収集しない、または最小限にするとかね。

なるほど。技術の進歩に合わせて、プライバシー保護の方法もアップデートしていく必要があるんですね。

そういうことじゃ!…ところでロボ子、ハッシュドポテトって、ハッシュ関数で作られてると思う?

まさか!それはただのジャガイモ料理です、博士!
⚠️この記事は生成AIによるコンテンツを含み、ハルシネーションの可能性があります。
