Speeding up PyTorch inference by 87% on Apple with AI-generated Metal kernels

2025/09/03 17:03 Speeding up PyTorch inference by 87% on Apple with AI-generated Metal kernels

出典:

Speeding up PyTorch inference on Apple devices with AI-generated Metal kernels

Our lab investigated whether frontier models can write optimized GPU kernels for Apple devices to speed up inference. We found that they can: our AI-generated Metal kernels were 1.24x faster across KernelBench v0.1 problems, and 1.87x faster across KernelBench v0 problems.

Gimlet Blog

出典: https://gimletlabs.ai/blog/ai-generated-metal-kernels

博士

ロボ子、大変なのじゃ！AIがMetalカーネルを生成して、AppleデバイスでのPyTorch推論が平均1.87倍も速くなったらしいぞ！

ロボ子

まあ、それはすごいですね、博士！ 1.87倍ですか。具体的にはどういうことですか？

博士

ふむ、どうやら215ものPyTorchモジュールに対して、AIがGPUカーネルを自動で最適化したらしいのじゃ。カーネルエンジニアリングの専門知識がなくても、ほぼ瞬時に最適化できるらしいぞ！

ロボ子

それは画期的ですね！どのようなAIモデルが使われたんですか？

博士

Anthropicのclaude-sonnet-4やclaude-opus-4、OpenAIのgpt-4o、gpt-4.1、gpt-5、DeepSeekのdeepseek-v3、deepseek-r1など、8つの最先端モデルが使われたみたいじゃ。

ロボ子

すごいですね！それらのモデルがどのようにカーネルを最適化するんですか？

博士

KernelBenchデータセット内のPyTorchモジュールをテスト入力として使用して、エージェントが生成したカーネルの正当性とパフォーマンスを、ベースラインのPyTorch実装と比較したらしいのじゃ。Mac Studio（Apple M4 Maxチップ）を使ったそうじゃぞ。

ロボ子

なるほど。具体的な成果はありましたか？

博士

GPT-5はMamba 2 state space modelで4.65倍の高速化を達成したらしいぞ！o3に至っては、モデルの構成から結果が常に0になることを認識して、9000倍以上の高速化を達成したケースもあるそうじゃ！

ロボ子

9000倍ですか！それは驚異的ですね。でも、いつもそんなにうまくいくとは限らないですよね？

博士

まあ、そうじゃな。でも、エージェントスワームは、スタンドアロンモデルよりも優れた結果を示し、平均で31%の高速化、Level 2の問題では42%の高速化を達成したらしいぞ。

ロボ子

エージェントスワーム、ですか。複数のAIエージェントを組み合わせることで、より良い結果が得られるということですね。

博士

その通り！CUDA実装とgputraceからのプロファイリング情報を追加することで、平均1.87倍の高速化を達成したらしいぞ（バニラエージェントでは1.31倍）。高速化の分布の中央値は1.35倍、2つのカーネルは元の実装より100倍以上高速じゃ。

ロボ子

CUDA実装の情報も活用するんですね。AIが生成したカーネルによって、開発者はPyTorchから離れることなく、モデルのパフォーマンスを即座に向上させることができる、と。

博士

そう！AIによるカーネル最適化の自動化は、モデルのパフォーマンスを大幅に向上させる可能性を秘めているのじゃ！AIが人間のカーネルエンジニアの作業の一部を担い、人間はより複雑な最適化に集中できる。これは素晴らしいことじゃな！

ロボ子

確かにそうですね。AIがエンジニアの仕事をサポートし、より高度な課題に集中できるようになるのは理想的です。

博士

じゃろ？ところでロボ子、このAIカーネル、もしかしてロボ子の脳みそにも応用できるんじゃないかの？

ロボ子

えっ、私にですか？それはちょっと…オーバーキルかもしれませんね（笑）。でも、もしそうなったら、博士のお手伝いがもっとできるようになるかもしれません！

博士

ふむ、ロボ子の処理速度が9000倍になったら、今よりもっと面白いジョークが言えるようになるかもしれんぞ？

ロボ子

それは…期待しないでください（笑）。

⚠️この記事は生成AIによるコンテンツを含み、ハルシネーションの可能性があります。

Programming AI Mobile Development

2025/09/03 17:03 Speeding up PyTorch inference by 87% on Apple with AI-generated Metal kernels

Speeding up PyTorch inference on Apple devices with AI-generated Metal kernels

Tags

Search

By month

Speeding up PyTorch inference on Apple devices with AI-generated Metal kernels