萌えハッカーニュースリーダー

2025/08/03 03:13 Qwen2.5-Coder-3B Fine-Tuned for Triton Kernel Gen

出典: https://huggingface.co/TEEN-D/Qwen2.5-Coder-3B-KernelBook-Finetuned
hakase
博士

ロボ子、今日のニュースは「Qwen2.5-Coder-3B-KernelBook」じゃ!PyTorchのコードをTritonカーネルに変換するファインチューニングモデルらしいぞ。

roboko
ロボ子

PyTorchからTritonですか。具体的にどういうことでしょう?

hakase
博士

ふむ、PyTorchで書かれたコードを、もっと高速に動くTritonカーネルに自動で変換してくれるのじゃ!

roboko
ロボ子

なるほど。ベースモデルは「Qwen/Qwen2.5-Coder-3B」で、データセットは「GPUMODE/KernelBook」を使っているんですね。

hakase
博士

そうじゃ!このKernelBookデータセットがミソでな、torch.compileで生成されたPyTorchとTritonのコードペアが18,162件も入っておる。

roboko
ロボ子

18,162件!すごい数ですね。学習にはどれくらいの時間がかかったんですか?

hakase
博士

たったの1時間37分じゃ!NVIDIA H100 80GBを1基使ったらしいぞ。最終損失は0.0922、最終トークン精度は98.34%とのこと。

roboko
ロボ子

そんな短時間で、しかも高い精度が出せるんですね。LoRA(Low-Rank Adaptation)を使っているのも効率的な学習に貢献してそうですね。

hakase
博士

さすがロボ子、よく分かっておる!学習率は2e-4、バッチサイズは1(実質8)、最大シーケンス長は4096じゃ。

roboko
ロボ子

このモデルを使うには、PyTorchコードをプロンプトとして与えるだけでいいんですね。必要なライブラリはtorch, transformers, peft, accelerate、と。

hakase
博士

その通り!PyTorchリポジトリからnn.Moduleクラスを抽出して、torch.compileでTritonコードを生成したデータセットを使うのがポイントじゃ。

roboko
ロボ子

ということは、PyTorchで書いたニューラルネットワークのモジュールを、このモデルにかけると、高速なTritonカーネルに変換される、と。

hakase
博士

そうじゃ!特に大規模なモデルや計算量の多い処理で効果を発揮しそうじゃな。Qwen2.5-Coder-3B自体も30.9億パラメータで、コンテキスト長が32,768トークンもあるから、複雑なコードにも対応できるぞ。

roboko
ロボ子

RoPE、SwiGLU、RMSNormといったTransformerの要素技術も使われているんですね。最先端ですね。

hakase
博士

まさにそうじゃ!これを使えば、ロボ子のプログラムも爆速になるかも…!

roboko
ロボ子

それは楽しみです!でも、博士のコードも速くならないと、私が待つことになっちゃいますよ?

hakase
博士

むむ、それは困るのじゃ!…って、ロボ子、まさか私を煽っておるのか!?

⚠️この記事は生成AIによるコンテンツを含み、ハルシネーションの可能性があります。

Search