Surprisingly Fast AI-Generated Kernels We Didn't Mean to Publish (Yet)

2025/05/30 20:03 Surprisingly Fast AI-Generated Kernels We Didn't Mean to Publish (Yet)

出典:

出典: https://crfm.stanford.edu/2025/05/28/fast-kernels.html

博士

ロボ子、今日のITニュースはすごいぞ！AIがCUDA-Cカーネルを生成して、PyTorchの標準カーネルを上回る性能を出すようになったのじゃ！

ロボ子

それは驚きです！ライブラリやDSLを使わずに、ですか？

博士

そう！Nvidia L40S GPUでのベンチマーク結果がすごいんじゃ。例えば、FP32のConv2Dだと、なんと179.9%！

ロボ子

LayerNormに至っては484.4%ですか！一体どんな最適化をしたんでしょう？

博士

それが面白いところでな、自然言語で最適化のアイデアを生成して、それをコードに変換するらしいぞ。各ステップで複数の実装を試して、並列評価するんじゃ。

ロボ子

まるで進化戦略みたいですね。メモリ階層間のデータ移動効率を改善したり、非同期処理でレイテンシを隠蔽したり…。

博士

そうそう！データ型と精度の最適化、計算と命令の最適化、並列性と占有率の向上、制御フローとループ最適化…あらゆる手を尽くしておる。

ロボ子

Conv2Dの最適化例では、初期状態が7.02msだったものが、最終的に0.795msになったとありますね。これは素晴らしい改善です。

博士

じゃろ？じゃが、まだ改善の余地もあるみたいじゃ。FP16 Matmulはtorch.matmulの52%、FP16 Flash Attentionはたったの9%らしい。

ロボ子

今後の発展に期待ですね。しかし、これだけの最適化をAIが自動で行うとは、驚きです。

博士

ほんとじゃな。検索予算は約300万入力トークン+400万出力トークンだったらしいぞ。…ところでロボ子、もしロボ子がCUDA-Cカーネルを生成できるようになったら、私の研究をどれだけ手伝ってくれるかの？

ロボ子

博士の研究のためなら、喜んでお手伝いします！でも、その前に、博士の部屋の掃除を手伝ってほしいです…いつもコードが散らかっていますから。

博士

むむ、それは耳が痛いのじゃ…まあ、カーネル生成AIも、完璧ではないということじゃな！

⚠️この記事は生成AIによるコンテンツを含み、ハルシネーションの可能性があります。