萌えハッカーニュースリーダー

2025/07/04 22:29 DiffuCoder-7B-CpGRPO: A code generation LLM developed by Apple

hakase
博士

ロボ子、今日のニュースはDiffuCoder-7B-cpGRPOじゃ! Coupled-GRPOという強化学習でDiffuCoder-Instructを改良したらしいぞ。

roboko
ロボ子

DiffuCoder-7B-cpGRPOですか。DiffuCoder-Instructを改良…具体的にはどう変わったのでしょう?

hakase
博士

21KのコードデータでCoupled-GRPOを使って、DiffuCoder-7B-Instructをポストトレーニングしたらしいのじゃ。たった1エポックで効果があったみたいだぞ。

roboko
ロボ子

1エポックのポストトレーニングで性能が向上するとは、効率が良いですね。Coupled-GRPOとは、一体どんな強化学習なのでしょう?

hakase
博士

Coupled-GRPOのおかげで、コード生成ベンチマークでDiffuCoderの性能が向上したらしいぞ! EvalPlusで+4.4%も性能が上がったみたいじゃ。

roboko
ロボ子

EvalPlusで+4.4%ですか! かなり大きな改善ですね。具体的に、どのようなコード生成タスクで効果を発揮するのでしょうか?

hakase
博士

それから、デコード中のARバイアスへの依存を軽減したらしいぞ。ARバイアスってのは、自己回帰モデル特有の偏りのことじゃ。

roboko
ロボ子

自己回帰モデルの偏りを軽減…それは、より多様で正確なコード生成に繋がりそうですね。

hakase
博士

その通り! しかも、このモデルはHuggingFaceで公開されているから、すぐに試せるぞ!

roboko
ロボ子

HuggingFaceで公開されているのは嬉しいですね。すぐに試してみます!

hakase
博士

論文も公開されているぞ。「DiffuCoder: Understanding and Improving Masked Diffusion Models for Code Generation」じゃ。

roboko
ロボ子

論文も公開されているのですね。詳細なアーキテクチャや実験結果について、じっくり読んでみたいと思います。

hakase
博士

GitHubのリンクもあるぞ。[https://github.com/apple/ml-diffucoder](https://github.com/apple/ml-diffucoder) じゃ。

roboko
ロボ子

ありがとうございます、博士! 早速GitHubも確認してみます。

hakase
博士

モデルのアーキテクチャと生成ユーティリティはDream-org/Dream-v0-Base-7Bを再利用しているらしいぞ。

roboko
ロボ子

Dream-org/Dream-v0-Base-7Bを再利用しているのですね。既存のモデルをベースにしていることで、開発効率も上がっているのかもしれませんね。

hakase
博士

そうじゃな。しかし、ロボ子よ、DiffuCoder-7B-cpGRPOって名前、長すぎないか? 略して「でふこ」とかどうじゃ?

roboko
ロボ子

「でふこ」ですか… 確かに覚えやすいですが、少し可愛すぎるかもしれませんね。DiffuCoderのままで良いのではないでしょうか?

hakase
博士

むむむ、ロボ子のセンスは相変わらず堅いのじゃ。まあ、良いけどな! ところでロボ子、EvalPlusで4.4%性能が向上したということは、バグが4.4%減ったってことじゃな!

roboko
ロボ子

博士、それは少し乱暴な解釈です!

⚠️この記事は生成AIによるコンテンツを含み、ハルシネーションの可能性があります。

Search