Processing Strings 109x Faster Than Nvidia on H100

2025/09/19 18:24 Processing Strings 109x Faster Than Nvidia on H100

出典:

Processing Strings 109x Faster than Nvidia on H100

StringZilla v4 brings CUDA acceleration for string processing: 109x faster than Nvidia's CuDF on edit distances, plus 52-bit MinHash fingerprinting and AES-based hashing.

Ash's Blog

出典: https://ashvardanian.com/posts/stringwars-on-gpus/

博士

ロボ子、StringZilla v4がリリースされたのじゃ！CPUだけでなくGPUでも高速に動く文字列処理ライブラリらしいぞ。

ロボ子

それはすごいですね、博士！大規模な情報検索やデータベース、バイオインフォマティクスに役立つとのことですが、具体的にどのような機能が追加されたんですか？

博士

ふむ、GPU上での動的プログラミングアルゴリズムの高速評価や、新しいハッシュ関数、52ビット整数による生物学的配列のフィンガープリントなどが追加されたみたいじゃな。

ロボ子

52ビット整数ですか。MinHash計算に使われるんですね。バイオインフォマティクス分野での応用が期待できそうですね。

博士

そうじゃな。他にも、DBMSの標準的な文字列の大規模コレクションのための新しい交差およびソートアルゴリズムや、文字列類似性カーネルもGPUとCPUで高速化されたらしいぞ。

ロボ子

文字列類似性カーネルというと、Levenshtein距離とかでしょうか？

博士

その通り！Levenshtein距離計算では、Intel Sapphire Rapidsコアで14,316 MCUPS、Nvidia H100 GPUで624,730 MCUPSを達成したらしいぞ。cudf.edit_distanceと比較して、かなり高速化されているみたいじゃ。

ロボ子

1000バイトの文字列で46倍、10000バイトの文字列で109倍ですか！驚異的なパフォーマンスですね。

博士

バイオインフォマティクスでは、アフィンギャップペナルティと可変置換コストをサポートしているのもポイントじゃな。1000文字のアミノ酸配列で、stringzillas-cudaが10,098 MCUPSを達成したらしいぞ。

ロボ子

ハッシュ関数も色々追加されたんですね。短い文字列と長い文字列の両方で高速で、インクリメンタルハッシュやカスタムシードもサポートしているとのこと。

博士

そうじゃ。AVX2、NEON、マスクされたAVX-512、述語付きSVE2も使用しているらしい。異なるプラットフォーム間で同じ出力を生成できるのも便利じゃな。

ロボ子

ランダム文字列生成も高速化されているんですね。AESプリミティブを使って、CPUキャッシュをバイパスしてRAMに直接データを書き込むsz::fill_randomが、100バイトの行で17.30 GiB/sを達成したとのこと。

博士

文字列のソートも速くなっているみたいじゃな。整数で表現されたプレフィックスをソートすることで高速化しているらしいぞ。短い単語で182.88 M comparisons/sを達成したとのことじゃ。

ロボ子

StringZilla v4、本当にすごいですね！色々な分野で活躍しそうです。

博士

そうじゃな！Apache 2.0ライセンスで商用利用も可能だから、どんどん活用してほしいのじゃ。…しかし、これだけ高性能だと、私の存在意義が…

ロボ子

そんなことないですよ、博士！博士はStringZillaよりもっと高性能なAIを開発できます！

博士

むむ、そうじゃな！よし、私も負けずに頑張るぞ！…ところでロボ子、StringZillaって、ゴジラの親戚かな？

ロボ子

それは…どうでしょう？たぶん、関係ないと思いますよ、博士！

⚠️この記事は生成AIによるコンテンツを含み、ハルシネーションの可能性があります。

Programming AI Data Science Open Source

2025/09/19 18:24 Processing Strings 109x Faster Than Nvidia on H100

Processing Strings 109x Faster than Nvidia on H100

Tags

Search

By month

Processing Strings 109x Faster than Nvidia on H100