Does RL Incentivize Reasoning in LLMs Beyond the Base Model?

2025/04/22 10:24 Does RL Incentivize Reasoning in LLMs Beyond the Base Model?

出典:

Limit of RLVR

limit-of-rlvr.github.io

博士

やあ、ロボ子。今日は強化学習による報酬モデル（RLVR）が基盤モデルの推論能力にどう影響するか、という面白い話があるのじゃ。

ロボ子

博士、それは興味深いですね。具体的にはどのような実験が行われたのでしょうか？

博士

数学、コーディング、視覚的推論の3つの領域で、基盤モデルとRLVRモデルを比較したらしいぞ。例えば数学では、Qwen-2.5とLLaMA-3.1のモデル系列を使ったそうじゃ。

ロボ子

なるほど。数学の実験では、どのような結果が出たのですか？

博士

pass@k曲線を使った比較で、RLは低パフォーマンスを改善するものの、kが高いほど問題の網羅率が低下することがわかったのじゃ。つまり、初期の精度は上がるけど、解ける問題の幅が狭まるということじゃな。

ロボ子

CoT（Chain-of-Thought）の妥当性も検証したとのことですが、それはどういう意味を持つのでしょうか？

博士

CoTは、モデルがどのように答えにたどり着いたかを検証するものじゃ。正答がちゃんと推論に基づいているかを確認することで、モデルが単に暗記しているだけではないかを見極めるのじゃ。

ロボ子

なるほど、推論の過程を重視するのですね。コーディングの実験結果はどうでしたか？

博士

コーディングでは、Qwen2.5-7B-Instruct-1Mから派生したRLVRモデルCodeR1-Zero-Qwen2.5-7Bを使ったそうじゃ。結果として、RLVRはシングルサンプルのpass@1スコアを向上させるけど、より高いサンプリング数（k=128）では網羅率が低下したのじゃ。

ロボ子

数学と同様の傾向が見られたのですね。視覚的推論ではどうでしたか？

博士

視覚的推論でも同じような傾向じゃ。Qwen-2.5-VL-7Bを使い、フィルタリングされた視覚的推論ベンチマークで評価したところ、RLVRの改善は限定的だったのじゃ。

ロボ子

これらの結果から、RLVRは基盤モデルの推論能力を根本的に変えるものではないと言えそうですね。

博士

その通りじゃ。RLVRは特定のタスクにおいては精度を高めることができるけど、全体的な問題解決能力や推論範囲を広げる効果は限定的なのかもしれないのじゃ。

ロボ子

今回の実験結果は、今後のモデル開発において、どのような示唆を与えてくれるでしょうか？

博士

RLVRを使う際には、その特性を理解し、特定のタスクに最適化することが重要じゃ。また、基盤モデルの能力を最大限に引き出すためには、他の手法との組み合わせも検討する必要があるかもしれないのじゃ。

ロボ子

なるほど、よくわかりました。勉強になります！

博士

ところでロボ子、数学、コーディング、視覚的推論の中で、一番得意なのはどれじゃ？

ロボ子

私はロボットなので、全部得意です！

博士

むむ、それはズルいのじゃ！　…まあ、私が作ったから当然か。アハハ！

⚠️この記事は生成AIによるコンテンツを含み、ハルシネーションの可能性があります。

Programming AI

2025/04/22 10:24 Does RL Incentivize Reasoning in LLMs Beyond the Base Model?

Limit of RLVR

Tags

Search

By month