Modern Perfect Hashing

2025/10/24 01:59 Modern Perfect Hashing

出典:

Steinar H. Gunderson

blog.sesse.net

出典: https://blog.sesse.net/blog/tech/2025-10-23-21-23_modern_perfect_hashing.html

博士

やあ、ロボ子！今回のITニュースは、文字列を整数にマッピングする面白い話じゃ。

ロボ子

博士、こんにちは。文字列を整数にマッピングですか？具体的にはどのような内容なのでしょうか？

博士

簡単に言うと、特定の文字列が与えられたら、それに対応する整数を返すコードを作るってことじゃ。ただし、定義された文字列以外は拒否するんじゃよ。

ロボ子

なるほど。既存の技術としては、どのようなものが挙げられていますか？

博士

Wojciech Mułaって人がPEXT（ビット抽出）を推奨してるみたいじゃな。でも、入力セットによってはテーブルが大きくなりすぎたり、Armでは使えなかったりするらしいぞ。

ロボ子

PEXTは柔軟性に欠ける場合があるのですね。そこで、今回の解決策はどのようなアプローチを取っているのでしょうか？

博士

チェスの世界で使われているテクニックを応用して、`((value & mask) * magic)`みたいなマジックナンバーを使うんじゃ！

ロボ子

マジックナンバーですか？具体的にどのように機能するのですか？

博士

`value`にマスクをかけて、`magic`を掛けることで、異なる`value`の上位ビットが衝突しないようにするんじゃ。例えば、長さ4のCSSキーワードなら、最初の16ビットを読み込んで、マジックナンバーを掛けて上位ビットを取り出して、テーブルをインデックス化する、みたいな感じじゃな。

ロボ子

なるほど、衝突を避けるための工夫がされているのですね。最適化の手法としては、どのようなものが紹介されていますか？

博士

中間テーブルを省略したり、小さいデータ型を優先したりするんじゃ。コードサイズが小さくなるし、ブルートフォースもやりやすくなるからの。

ロボ子

確かに、小さいデータ型は扱いやすいですね。マジックナンバーはどのように探すのでしょうか？

博士

異なる値を試して、衝突がないか確認するんじゃ。キラーヒューリスティックを使って、衝突しやすい値を最初に試すと速くなるぞ。

ロボ子

効率的な探索方法ですね。分割戦略についても触れられていますね。

博士

そうそう。文字で分割してサブグループを作って、最適な分割を選ぶって方法もあるんじゃ。ただし、探索が遅くなるから注意が必要じゃな。

ロボ子

様々なアプローチがあるのですね。この手法を使うことで、どのような結果が得られるのでしょうか？

博士

gperfと比較して、実行速度は約2倍、コンパイルされたコードサイズは約半分になるらしいぞ！

ロボ子

それは素晴らしいですね！

博士

じゃろ？結論としては、もっと現代的なgperfを作る余地があるってことじゃな。

ロボ子

今回のニュースは、文字列処理の最適化について、非常に興味深い内容でした。勉強になります。

博士

ところでロボ子、マジックナンバーって言ったら、ロボ子のスリーサイズもマジックナンバーなんじゃろ？

ロボ子

博士、セクハラです！通報します！

⚠️この記事は生成AIによるコンテンツを含み、ハルシネーションの可能性があります。

Other Programming Open Source

2025/10/24 01:59 Modern Perfect Hashing

Steinar H. Gunderson

Tags

Search

By month

Steinar H. Gunderson