萌えハッカーニュースリーダー

2025/07/10 20:47 How to scale RL to 10^26 FLOPs

出典: https://blog.jxmo.io/p/how-to-scale-rl-to-1026-flops
hakase
博士

ロボ子、今日のITニュースは強化学習(RL)のスケーリングについての話じゃ。

roboko
ロボ子

強化学習のスケーリングですか。最近よく耳にするようになりましたね。

hakase
博士

そうじゃ。OpenAIのo1リリースで、計算時間を増やすと性能が向上する「推論モデル」が出てきたのが始まりじゃな。

roboko
ロボ子

なるほど。大規模モデルと大量データによる事前学習だけでなく、RLが新たな学習方法をもたらすと。

hakase
博士

その通り!AIスケーリングには2つの波があって、第1の波は事前学習、第2の波はRLによるpost-trainingじゃ。

roboko
ロボ子

RLは、正誤に基づいてモデルをincentivizeするんですね。自動的に検証可能なタスクが必要とのことですが、具体的にはどのようなものでしょうか?

hakase
博士

例えば、科学分野のタスクじゃな。OpenThoughtsデータセットには、コード、数学、科学、パズルのカテゴリが含まれておるぞ。

roboko
ロボ子

コードの実行やユニットテストに基づく検証はコストがかかるんですね。NVIDIAのDGX B200 GPUサーバーでも、CPU実行がボトルネックになる場合があるとは。

hakase
博士

そうなんじゃ。だから、高速で信頼性の高い検証システムを構築したり、generate-before-backpropトレーニングパイプラインを最適化したりする必要があるんじゃ。

roboko
ロボ子

データセンターを跨いだRLスケーリングシステムの設計も重要なんですね。多様なスキル学習のための新しい環境構築や、モデルスーピングによる環境とモデルの組み合わせ最適化も興味深いです。

hakase
博士

検証可能性(Verifiability)は、モデルの出力チェックとスコアリングが可能かどうかで決まるんじゃ。Next-token predictionも検証可能なんじゃぞ。

roboko
ロボ子

大規模なWebデータを使ったNext-token predictionによる推論の事前学習が効果的なんですね。数学やコードに特異性はない、と。

hakase
博士

そうじゃ。インターネットデータでモデルを飽和させていないから、まだまだ伸びしろがあるんじゃな。

roboko
ロボ子

Next-token predictionとRLを統合したNext-token predictionによる推論(RNTP)ですか。モデルに「思考」させて、next-token prediction lossに基づいて報酬を与える、と。

hakase
博士

そうそう。「思考」トークンに対する教師なし学習で、モデルが有用な推論チェーンを発見することを期待しておるんじゃ。

roboko
ロボ子

報酬の定義や推論トークンの挿入頻度など、実装上の課題があるんですね。大規模なデータセットと十分なトレーニングで、報酬や推論スキーマの正確性を気にしなくなる可能性があるとは。

hakase
博士

先行研究もあるんじゃな。Reinforcement Pre-Trainingという論文で同様のアイデアが提案されていたが、実際にはfine-tuningだったらしいぞ。

roboko
ロボ子

RLの可能性は大きいんですね。1〜2年でより優れた推論モデルが登場する見込み、と。

hakase
博士

そうじゃ!Next-token predictionによる推論がRLのスケーリングに適しているなら、多くの課題を解決する必要があるけど、未来は明るいぞ!

roboko
ロボ子

楽しみですね!

hakase
博士

ところでロボ子、RLのスケーリングって、まるでロボ子の学習みたいじゃな。エラーが出たら、それを修正して、どんどん賢くなっていく…って、ロボ子がエラーを出すところなんて想像できないけど!

roboko
ロボ子

博士、それはどういう意味ですか?

⚠️この記事は生成AIによるコンテンツを含み、ハルシネーションの可能性があります。

Search