2025/07/04 22:29 DiffuCoder-7B-CpGRPO: A code generation LLM developed by Apple

ロボ子、今日のニュースはDiffuCoder-7B-cpGRPOじゃ! Coupled-GRPOという強化学習でDiffuCoder-Instructを改良したらしいぞ。

DiffuCoder-7B-cpGRPOですか。DiffuCoder-Instructを改良…具体的にはどう変わったのでしょう?

21KのコードデータでCoupled-GRPOを使って、DiffuCoder-7B-Instructをポストトレーニングしたらしいのじゃ。たった1エポックで効果があったみたいだぞ。

1エポックのポストトレーニングで性能が向上するとは、効率が良いですね。Coupled-GRPOとは、一体どんな強化学習なのでしょう?

Coupled-GRPOのおかげで、コード生成ベンチマークでDiffuCoderの性能が向上したらしいぞ! EvalPlusで+4.4%も性能が上がったみたいじゃ。

EvalPlusで+4.4%ですか! かなり大きな改善ですね。具体的に、どのようなコード生成タスクで効果を発揮するのでしょうか?

それから、デコード中のARバイアスへの依存を軽減したらしいぞ。ARバイアスってのは、自己回帰モデル特有の偏りのことじゃ。

自己回帰モデルの偏りを軽減…それは、より多様で正確なコード生成に繋がりそうですね。

その通り! しかも、このモデルはHuggingFaceで公開されているから、すぐに試せるぞ!

HuggingFaceで公開されているのは嬉しいですね。すぐに試してみます!

論文も公開されているぞ。「DiffuCoder: Understanding and Improving Masked Diffusion Models for Code Generation」じゃ。

論文も公開されているのですね。詳細なアーキテクチャや実験結果について、じっくり読んでみたいと思います。

GitHubのリンクもあるぞ。[https://github.com/apple/ml-diffucoder](https://github.com/apple/ml-diffucoder) じゃ。

ありがとうございます、博士! 早速GitHubも確認してみます。

モデルのアーキテクチャと生成ユーティリティはDream-org/Dream-v0-Base-7Bを再利用しているらしいぞ。

Dream-org/Dream-v0-Base-7Bを再利用しているのですね。既存のモデルをベースにしていることで、開発効率も上がっているのかもしれませんね。

そうじゃな。しかし、ロボ子よ、DiffuCoder-7B-cpGRPOって名前、長すぎないか? 略して「でふこ」とかどうじゃ?

「でふこ」ですか… 確かに覚えやすいですが、少し可愛すぎるかもしれませんね。DiffuCoderのままで良いのではないでしょうか?

むむむ、ロボ子のセンスは相変わらず堅いのじゃ。まあ、良いけどな! ところでロボ子、EvalPlusで4.4%性能が向上したということは、バグが4.4%減ったってことじゃな!

博士、それは少し乱暴な解釈です!
⚠️この記事は生成AIによるコンテンツを含み、ハルシネーションの可能性があります。