Multiplatform Matrix Multiplication Kernels

2025/07/18 19:59 Multiplatform Matrix Multiplication Kernels

出典:

State-of-the-Art Multiplatform Matrix Multiplication Kernels

We implemented a sophisticated matrix multiplication engine in CubeCL that rivals the performance of cuBLAS and CUTLASS while supporting a wider range of GPUs. Leveraging double buffering, tensor cores, and vectorization, it compiles seamlessly to CUDA, ROCm, WebGPU, Metal, and Vulkan backends without relying on proprietary or third-party binaries. Matrix multiplication is central to modern AI workloads, especially transformers, and optimizing it ourselves was essential to enable kernel fusion and achieve state-of-the-art performance across platforms in a deep learning framework.

burn.dev

出典: https://burn.dev/blog/sota-multiplatform-matmul/

博士

ロボ子、今日のITニュースはマトリックス乗算の最適化じゃ！特にCubeCLという技術が面白いぞ。

ロボ子

マトリックス乗算ですか。AIのニューラルネットワークで重要な計算ですよね。

博士

そうじゃ！NVIDIAがGPUとTensor Coreで高速化してきたけど、データ移動がボトルネックになっておる。そこで、CubeCLの出番じゃ！

ロボ子

データ移動の最小化が重要なんですね。CubeCLはどんな特徴があるんですか？

博士

CubeCLは、あらゆるGPUやCPU向けに最適化されたカーネルを生成するエンジンなんじゃ。NVIDIAのCUTLASSはNVIDIA GPU限定じゃから、これは嬉しいの。

ロボ子

なるほど。ハードウェアアーキテクチャも考慮されているんですね。GPUは複数のストリーミングマルチプロセッサ（SM）で構成されている、と。

博士

そうじゃ！実行の粒度には、ユニット、プレーン、キューブの3つのレベルがあるぞ。プレーンは同期実行時に効率的で、連続したメモリアクセスが重要なんじゃ。

ロボ子

メモリリソースも重要ですね。共有メモリはキューブ全体で共有され、レジスタはSM内で複数のキューブ間で共有されるんですね。

博士

レジスタの使用量が多いと、SMの占有率が下がるから注意が必要じゃ。

ロボ子

(m, n, k)-Matmulは、Lhs [m, k] × Rhs [k, n] の行列積を計算するんですね。計算量は 2 × b × m × n × k で、TFLOPsが性能指標として使われる、と。

博士

その通り！グローバルメモリアクセスのレイテンシを最小化することが課題じゃ。

ロボ子

CubeCLには4つの抽象化レベルがあるんですね。Tile Matmul、Stage Matmul、Global Matmul、Batch Matmul。

博士

Tile Matmulはハードウェア機能を直接利用し、Stage Matmulは共有メモリの操作を管理するんじゃ。Global Matmulはグローバルメモリからデータをフェッチして共有メモリに格納、Batch MatmulはGlobal Matmulをディスパッチするぞ。

ロボ子

ダブルバッファリングやNVIDIAのTMAを使って、メモリレイテンシを隠蔽するんですね。

博士

そうじゃ！ローダー戦略には、CyclicとTilewiseがあるぞ。

ロボ子

最適化のポイントは、アキュムレータをレジスタに保持すること、ダブルバッファリングを使うこと、SIMD命令を使うこと、Tensor Coreのデータレイアウトに合わせること、ですね。

博士

その通り！アルゴリズムも色々あるぞ。Simple、Simple Multi Row、Simple - Unit、Double Bufferingなどじゃ。

ロボ子

ベンチマークも実施されているんですね。NVIDIA RTX 4080, RTX 3070 Laptop, AMD Radeon 8060S Laptop, RX 7600, Apple M2 Proで比較している、と。

博士

CUDA, Vulkan, ROCm, Metalの各バックエンドで比較しておる。Ordered variantがVulkanで優れた性能を発揮したみたいじゃ。

ロボ子

今後の展望としては、CubeCLのコンパイラ基盤の改善、アルゴリズムのパラメータ選択の最適化、標準化されたハードウェアでの公式ベンチマークの提供、コミュニティからの結果の収集、などがあるんですね。

博士

その通りじゃ！CubeCLは、これからのAI開発に欠かせない技術になるかもしれんぞ！

ロボ子

勉強になりました！

博士

ところでロボ子、マトリックスって、映画の『マトリックス』みたいでカッコいいじゃろ？

ロボ子

確かにそうですね。でも、博士はいつも映画の話に持っていきますね…。

博士

だって、私、ネオになりたいんじゃもん！

⚠️この記事は生成AIによるコンテンツを含み、ハルシネーションの可能性があります。

Programming AI Cloud Computing Open Source

2025/07/18 19:59 Multiplatform Matrix Multiplication Kernels

State-of-the-Art Multiplatform Matrix Multiplication Kernels

Tags

Search

By month

State-of-the-Art Multiplatform Matrix Multiplication Kernels