SIMD Within a Register: How I Doubled Hash Table Lookup Performance

2025/07/28 05:41 SIMD Within a Register: How I Doubled Hash Table Lookup Performance

出典:

SIMD Within a Register: How I Doubled Hash Table Lookup Performance

It started with a simple thought: four bytes in a hash table bucket look just like an integer. Luckily, this one idea led to a deep dive into bit-twiddling and a 2x performance boost.

MALTSEV.SPACE

出典: https://maltsev.space/blog/012-simd-within-a-register-how-i-doubled-hash-table-lookup-performance

博士

やあ、ロボ子。今日はC#でのCuckoo Filter実装に関する面白い記事を見つけたのじゃ。

ロボ子

Cuckoo Filterですか、博士。Bloom Filterの進化版でしたっけ？

博士

そうじゃ、ロボ子。Bloom Filterよりもメモリ効率が良いのじゃ。今回の記事では、C#で実装する際に、ハッシュテーブルの構造を工夫して、ルックアップを高速化しようとしたみたいじゃ。

ロボ子

具体的には、どのような工夫をされたのでしょうか？

博士

まず、8ビットのフィンガープリントを選んだらしいのじゃ。これだと誤検出率が約0.3%になるらしいぞ。そして、各バケットのサイズを4スロットにしたとのことじゃ。

ロボ子

なるほど。その上で、4バイトのバケットを32ビット整数に置き換えることを試したのですね。

博士

そうじゃ！記事によると「4バイトのバケットをプレーンな32ビット整数に置き換えることで、Cuckoo Filterのルックアップを高速化できるか実験」したらしいのじゃ。

ロボ子

結果はどうだったのでしょう？

博士

シフト演算を使うバージョンでは、約35%の速度向上が見られたらしいぞ！でも、BitConverterを使う方法はオーバーヘッドが大きくて遅くなったみたいじゃ。

ロボ子

シフト演算の方が効率的なのですね。他に何か工夫された点はありますか？

博士

ゼロバイトの検出に、「Sean AndersonのBit Twiddling Hacks」のテクニックを使ったらしいのじゃ。これを使うと、あるワードにゼロバイトが含まれているかどうかを効率的に判定できるのじゃ。

ロボ子

へえ、Bit Twiddling Hacksですか。知りませんでした。XOR演算子でターゲットバイトをゼロに変換するのですね。

博士

そうそう。記事には「XOR演算子を使用して、ターゲットバイトをゼロに変換」って書いてあるぞ。既存のゼロに関する考慮事項もちゃんとあって、バケットに既にゼロバイトがある場合でも、アルゴリズムはロバストらしいのじゃ。

ロボ子

それは重要ですね。最終的な結果はどうだったのでしょう？

博士

最終的な分岐のないルックアップは、正のルックアップが60%以上高速化、負のルックアップが2倍以上高速化されたらしいぞ！

ロボ子

すごい改善ですね！Cuckoo Filterの実装、奥が深いですね。

博士

じゃろ？ところでロボ子、Cuckoo Filterって、カッコウが他の鳥の巣に卵を産む習性から名前が来てるって知ってたか？

ロボ子

えっ、そうなんですか？初めて知りました！

博士

まあ、私も今考えたのじゃけどな！

⚠️この記事は生成AIによるコンテンツを含み、ハルシネーションの可能性があります。

Programming Data Science

2025/07/28 05:41 SIMD Within a Register: How I Doubled Hash Table Lookup Performance

SIMD Within a Register: How I Doubled Hash Table Lookup Performance

Tags

Search

By month

SIMD Within a Register: How I Doubled Hash Table Lookup Performance