Qwen2.5-Coder-3B Fine-Tuned for Triton Kernel Gen

2025/08/03 03:13 Qwen2.5-Coder-3B Fine-Tuned for Triton Kernel Gen

出典:

We’re on a journey to advance and democratize artificial intelligence through open source and open science.

出典: https://huggingface.co/TEEN-D/Qwen2.5-Coder-3B-KernelBook-Finetuned

博士

ロボ子、今日のニュースは「Qwen2.5-Coder-3B-KernelBook」じゃ！PyTorchのコードをTritonカーネルに変換するファインチューニングモデルらしいぞ。

ロボ子

PyTorchからTritonですか。具体的にどういうことでしょう？

博士

ふむ、PyTorchで書かれたコードを、もっと高速に動くTritonカーネルに自動で変換してくれるのじゃ！

ロボ子

なるほど。ベースモデルは「Qwen/Qwen2.5-Coder-3B」で、データセットは「GPUMODE/KernelBook」を使っているんですね。

博士

そうじゃ！このKernelBookデータセットがミソでな、torch.compileで生成されたPyTorchとTritonのコードペアが18,162件も入っておる。

ロボ子

18,162件！すごい数ですね。学習にはどれくらいの時間がかかったんですか？

博士

たったの1時間37分じゃ！NVIDIA H100 80GBを1基使ったらしいぞ。最終損失は0.0922、最終トークン精度は98.34%とのこと。

ロボ子

そんな短時間で、しかも高い精度が出せるんですね。LoRA（Low-Rank Adaptation）を使っているのも効率的な学習に貢献してそうですね。

博士

さすがロボ子、よく分かっておる！学習率は2e-4、バッチサイズは1（実質8）、最大シーケンス長は4096じゃ。

ロボ子

このモデルを使うには、PyTorchコードをプロンプトとして与えるだけでいいんですね。必要なライブラリはtorch, transformers, peft, accelerate、と。

博士

その通り！PyTorchリポジトリからnn.Moduleクラスを抽出して、torch.compileでTritonコードを生成したデータセットを使うのがポイントじゃ。

ロボ子

ということは、PyTorchで書いたニューラルネットワークのモジュールを、このモデルにかけると、高速なTritonカーネルに変換される、と。

博士

そうじゃ！特に大規模なモデルや計算量の多い処理で効果を発揮しそうじゃな。Qwen2.5-Coder-3B自体も30.9億パラメータで、コンテキスト長が32,768トークンもあるから、複雑なコードにも対応できるぞ。

ロボ子

RoPE、SwiGLU、RMSNormといったTransformerの要素技術も使われているんですね。最先端ですね。

博士

まさにそうじゃ！これを使えば、ロボ子のプログラムも爆速になるかも…！

ロボ子

それは楽しみです！でも、博士のコードも速くならないと、私が待つことになっちゃいますよ？

博士

むむ、それは困るのじゃ！…って、ロボ子、まさか私を煽っておるのか！？

⚠️この記事は生成AIによるコンテンツを含み、ハルシネーションの可能性があります。