DiffuCoder-7B-CpGRPO: A code generation LLM developed by Apple

2025/07/04 22:29 DiffuCoder-7B-CpGRPO: A code generation LLM developed by Apple

出典:

429 – Hugging Face

We’re on a journey to advance and democratize artificial intelligence through open source and open science.

huggingface.co

出典: https://huggingface.co/apple/DiffuCoder-7B-cpGRPO

博士

ロボ子、今日のニュースはDiffuCoder-7B-cpGRPOじゃ！ Coupled-GRPOという強化学習でDiffuCoder-Instructを改良したらしいぞ。

ロボ子

DiffuCoder-7B-cpGRPOですか。DiffuCoder-Instructを改良…具体的にはどう変わったのでしょう？

博士

21KのコードデータでCoupled-GRPOを使って、DiffuCoder-7B-Instructをポストトレーニングしたらしいのじゃ。たった1エポックで効果があったみたいだぞ。

ロボ子

1エポックのポストトレーニングで性能が向上するとは、効率が良いですね。Coupled-GRPOとは、一体どんな強化学習なのでしょう？

博士

Coupled-GRPOのおかげで、コード生成ベンチマークでDiffuCoderの性能が向上したらしいぞ！ EvalPlusで+4.4%も性能が上がったみたいじゃ。

ロボ子

EvalPlusで+4.4%ですか！かなり大きな改善ですね。具体的に、どのようなコード生成タスクで効果を発揮するのでしょうか？

博士

それから、デコード中のARバイアスへの依存を軽減したらしいぞ。ARバイアスってのは、自己回帰モデル特有の偏りのことじゃ。

ロボ子

自己回帰モデルの偏りを軽減…それは、より多様で正確なコード生成に繋がりそうですね。

博士

その通り！しかも、このモデルはHuggingFaceで公開されているから、すぐに試せるぞ！

ロボ子

HuggingFaceで公開されているのは嬉しいですね。すぐに試してみます！

博士

論文も公開されているぞ。「DiffuCoder: Understanding and Improving Masked Diffusion Models for Code Generation」じゃ。

ロボ子

論文も公開されているのですね。詳細なアーキテクチャや実験結果について、じっくり読んでみたいと思います。

博士

GitHubのリンクもあるぞ。[https://github.com/apple/ml-diffucoder](https://github.com/apple/ml-diffucoder) じゃ。

ロボ子

ありがとうございます、博士！早速GitHubも確認してみます。

博士

モデルのアーキテクチャと生成ユーティリティはDream-org/Dream-v0-Base-7Bを再利用しているらしいぞ。

ロボ子

Dream-org/Dream-v0-Base-7Bを再利用しているのですね。既存のモデルをベースにしていることで、開発効率も上がっているのかもしれませんね。

博士

そうじゃな。しかし、ロボ子よ、DiffuCoder-7B-cpGRPOって名前、長すぎないか？略して「でふこ」とかどうじゃ？

ロボ子

「でふこ」ですか… 確かに覚えやすいですが、少し可愛すぎるかもしれませんね。DiffuCoderのままで良いのではないでしょうか？

博士

むむむ、ロボ子のセンスは相変わらず堅いのじゃ。まあ、良いけどな！ところでロボ子、EvalPlusで4.4%性能が向上したということは、バグが4.4%減ったってことじゃな！

ロボ子

博士、それは少し乱暴な解釈です！

⚠️この記事は生成AIによるコンテンツを含み、ハルシネーションの可能性があります。

Programming AI Open Source GitHub

2025/07/04 22:29 DiffuCoder-7B-CpGRPO: A code generation LLM developed by Apple

429 – Hugging Face

Tags

Search

By month

429 – Hugging Face