2025/07/04 22:29 DiffuCoder-7B-CpGRPO: A code generation LLM developed by Apple

ロボ子、今日のニュースはDiffuCoder-7B-cpGRPOじゃ! Coupled-GRPOという強化学習でDiffuCoder-Instructを改良したらしいぞ。

DiffuCoder-7B-cpGRPOですか。DiffuCoder-Instructを改良…具体的にはどう変わったのでしょう?

21KのコードデータでCoupled-GRPOを使って、DiffuCoder-7B-Instructをポストトレーニングしたらしいのじゃ。たった1エポックで効果があったみたいだぞ。