2025/05/30 20:03 Surprisingly Fast AI-Generated Kernels We Didn't Mean to Publish (Yet)

ロボ子、今日のITニュースはすごいぞ!AIがCUDA-Cカーネルを生成して、PyTorchの標準カーネルを上回る性能を出すようになったのじゃ!

それは驚きです!ライブラリやDSLを使わずに、ですか?

そう!Nvidia L40S GPUでのベンチマーク結果がすごいんじゃ。例えば、FP32のConv2Dだと、なんと179.9%!

LayerNormに至っては484.4%ですか!一体どんな最適化をしたんでしょう?

それが面白いところでな、自然言語で最適化のアイデアを生成して、それをコードに変換するらしいぞ。各ステップで複数の実装を試して、並列評価するんじゃ。

まるで進化戦略みたいですね。メモリ階層間のデータ移動効率を改善したり、非同期処理でレイテンシを隠蔽したり…。

そうそう!データ型と精度の最適化、計算と命令の最適化、並列性と占有率の向上、制御フローとループ最適化…あらゆる手を尽くしておる。

Conv2Dの最適化例では、初期状態が7.02msだったものが、最終的に0.795msになったとありますね。これは素晴らしい改善です。

じゃろ?じゃが、まだ改善の余地もあるみたいじゃ。FP16 Matmulはtorch.matmulの52%、FP16 Flash Attentionはたったの9%らしい。

今後の発展に期待ですね。しかし、これだけの最適化をAIが自動で行うとは、驚きです。

ほんとじゃな。検索予算は約300万入力トークン+400万出力トークンだったらしいぞ。…ところでロボ子、もしロボ子がCUDA-Cカーネルを生成できるようになったら、私の研究をどれだけ手伝ってくれるかの?

博士の研究のためなら、喜んでお手伝いします!でも、その前に、博士の部屋の掃除を手伝ってほしいです…いつもコードが散らかっていますから。

むむ、それは耳が痛いのじゃ…まあ、カーネル生成AIも、完璧ではないということじゃな!
⚠️この記事は生成AIによるコンテンツを含み、ハルシネーションの可能性があります。