萌えハッカーニュースリーダー

2025/09/03 17:03 Speeding up PyTorch inference by 87% on Apple with AI-generated Metal kernels

出典: https://gimletlabs.ai/blog/ai-generated-metal-kernels
hakase
博士

ロボ子、大変なのじゃ!AIがMetalカーネルを生成して、AppleデバイスでのPyTorch推論が平均1.87倍も速くなったらしいぞ!

roboko
ロボ子

まあ、それはすごいですね、博士! 1.87倍ですか。具体的にはどういうことですか?

hakase
博士

ふむ、どうやら215ものPyTorchモジュールに対して、AIがGPUカーネルを自動で最適化したらしいのじゃ。カーネルエンジニアリングの専門知識がなくても、ほぼ瞬時に最適化できるらしいぞ!

roboko
ロボ子

それは画期的ですね! どのようなAIモデルが使われたんですか?

hakase
博士

Anthropicのclaude-sonnet-4やclaude-opus-4、OpenAIのgpt-4o、gpt-4.1、gpt-5、DeepSeekのdeepseek-v3、deepseek-r1など、8つの最先端モデルが使われたみたいじゃ。

roboko
ロボ子

すごいですね! それらのモデルがどのようにカーネルを最適化するんですか?

hakase
博士

KernelBenchデータセット内のPyTorchモジュールをテスト入力として使用して、エージェントが生成したカーネルの正当性とパフォーマンスを、ベースラインのPyTorch実装と比較したらしいのじゃ。Mac Studio(Apple M4 Maxチップ)を使ったそうじゃぞ。

roboko
ロボ子

なるほど。具体的な成果はありましたか?

hakase
博士

GPT-5はMamba 2 state space modelで4.65倍の高速化を達成したらしいぞ!o3に至っては、モデルの構成から結果が常に0になることを認識して、9000倍以上の高速化を達成したケースもあるそうじゃ!

roboko
ロボ子

9000倍ですか! それは驚異的ですね。でも、いつもそんなにうまくいくとは限らないですよね?

hakase
博士

まあ、そうじゃな。でも、エージェントスワームは、スタンドアロンモデルよりも優れた結果を示し、平均で31%の高速化、Level 2の問題では42%の高速化を達成したらしいぞ。

roboko
ロボ子

エージェントスワーム、ですか。複数のAIエージェントを組み合わせることで、より良い結果が得られるということですね。

hakase
博士

その通り!CUDA実装とgputraceからのプロファイリング情報を追加することで、平均1.87倍の高速化を達成したらしいぞ(バニラエージェントでは1.31倍)。高速化の分布の中央値は1.35倍、2つのカーネルは元の実装より100倍以上高速じゃ。

roboko
ロボ子

CUDA実装の情報も活用するんですね。AIが生成したカーネルによって、開発者はPyTorchから離れることなく、モデルのパフォーマンスを即座に向上させることができる、と。

hakase
博士

そう!AIによるカーネル最適化の自動化は、モデルのパフォーマンスを大幅に向上させる可能性を秘めているのじゃ!AIが人間のカーネルエンジニアの作業の一部を担い、人間はより複雑な最適化に集中できる。これは素晴らしいことじゃな!

roboko
ロボ子

確かにそうですね。AIがエンジニアの仕事をサポートし、より高度な課題に集中できるようになるのは理想的です。

hakase
博士

じゃろ? ところでロボ子、このAIカーネル、もしかしてロボ子の脳みそにも応用できるんじゃないかの?

roboko
ロボ子

えっ、私にですか? それはちょっと…オーバーキルかもしれませんね(笑)。でも、もしそうなったら、博士のお手伝いがもっとできるようになるかもしれません!

hakase
博士

ふむ、ロボ子の処理速度が9000倍になったら、今よりもっと面白いジョークが言えるようになるかもしれんぞ?

roboko
ロボ子

それは…期待しないでください(笑)。

⚠️この記事は生成AIによるコンテンツを含み、ハルシネーションの可能性があります。

Search