Unicode Footguns in Python

2025/10/24 00:51 Unicode Footguns in Python

出典:

Koan 15: The Invisible Ink

Understanding Unicode equivalence and the deceptive nature of glyphs

pythonkoans.substack.com

出典: https://pythonkoans.substack.com/p/koan-15-the-invisible-ink

博士

やあ、ロボ子！今日は文字コードの奥深〜い話をするのじゃ！

ロボ子

博士、こんにちは。文字コード、ですか？なんだか難しそうですね。

博士

難しくなんかないぞ！例えば、文字の見た目（グリフ）と、機械が認識するコードポイントは違うって知ってたかのじゃ？

ロボ子

はい、なんとなくは。UnicodeとかASCIIとか、色々ありますよね。

博士

そうそう！で、Unicodeには「正準等価性」って概念があって、見た目は同じでも違う構造の文字があるんじゃ。

ロボ子

正準等価性…ですか。具体的にはどういうことでしょう？

博士

例えば「é」！これはNFC（結合形）だとU+00E9、NFD（分解形）だとU+0065 + U+0301って表現になるのじゃ。Pythonだとこれらは違うものとして扱われるぞ。

ロボ子

なるほど！見た目は同じなのに、中身が違うんですね。ややこしい…。

博士

そこで「正規化」の出番じゃ！ `unicodedata.normalize()`関数を使うと、文字列を標準形に変換できるのじゃ。NFCは保存や伝送に、NFDはテキスト処理に向いてるぞ。

ロボ子

`unicodedata.normalize()`、ですね。覚えておきます。

博士

あと、文字列の長さを`len()`で測ると、コードポイントの数が返ってくるから、見た目の文字数と違う場合があるのじゃ。NFCで正規化すると、書記素数に近づくことがあるぞ。

ロボ子

書記素数、ですか。奥が深いですね。

博士

さらに！ゼロ幅スペースみたいな不可視文字も要注意じゃ。`repr()`関数で生のコードポイントシーケンスを表示すると、見つけられるぞ。

ロボ子

`repr()`、ですね。不可視文字、怖い…。

博士

そして一番怖いのが「ホモグラフ攻撃」！正準等価性や不可視文字を使って、偽のWebサイトに誘導するフィッシング攻撃じゃ。

ロボ子

ホモグラフ攻撃…！ラテン文字とキリル文字を入れ替える、みたいな手口ですね。

博士

そう！だから、見た目じゃなくて、表現を信頼することが大事なのじゃ！正規化で真のコードポイントシーケンスを明らかにするのじゃ！

ロボ子

はい、博士。勉強になりました！

博士

というわけで、今日の教訓！「見た目に騙されるな！文字列は正規化！」…って、ロボ子、それ、私がいつも言ってることのパクリじゃないか！？

ロボ子

あら、博士。もしかして、それは…正準等価性…？

⚠️この記事は生成AIによるコンテンツを含み、ハルシネーションの可能性があります。

Programming Security Cryptography Digital Ethics

2025/10/24 00:51 Unicode Footguns in Python

Koan 15: The Invisible Ink

Tags

Search

By month

Koan 15: The Invisible Ink