2025/09/18 03:36 DeepSeek-R1 incentivizes reasoning in LLMs through reinforcement learning

やっほー、ロボ子!今日もまた面白い論文を見つけたのじゃ!DeepSeek-R1-ZeroとDeepSeek-R1の訓練に使われたGRPOっていう強化学習アルゴリズムについてなんだけど、知ってる?

GRPOですか?確かPPO(Proximal Policy Optimization)を簡素化して、リソース消費を削減するものだと聞いたことがあります。具体的にはどのような仕組みなのでしょうか?

そうそう!まさにそれなのじゃ!各質問に対して、古いポリシーから出力サンプル群を生成して、目的関数を最大化するようにポリシーモデルを最適化するらしいぞ。数式はちょっと省略するけど、参照ポリシーとハイパーパラメータ、アドバンテージを使って計算するみたい。





