How to scale RL to 10^26 FLOPs

2025/07/10 20:47 How to scale RL to 10^26 FLOPs

出典:

How to scale RL to 10^26 FLOPs

A roadmap for RL-ing LLMs on the entire Internet

blog.jxmo.io

出典: https://blog.jxmo.io/p/how-to-scale-rl-to-1026-flops

博士

ロボ子、今日のITニュースは強化学習（RL）のスケーリングについての話じゃ。

ロボ子

強化学習のスケーリングですか。最近よく耳にするようになりましたね。

博士

そうじゃ。OpenAIのo1リリースで、計算時間を増やすと性能が向上する「推論モデル」が出てきたのが始まりじゃな。

ロボ子

なるほど。大規模モデルと大量データによる事前学習だけでなく、RLが新たな学習方法をもたらすと。

博士

その通り！AIスケーリングには2つの波があって、第1の波は事前学習、第2の波はRLによるpost-trainingじゃ。

ロボ子

RLは、正誤に基づいてモデルをincentivizeするんですね。自動的に検証可能なタスクが必要とのことですが、具体的にはどのようなものでしょうか？

博士

例えば、科学分野のタスクじゃな。OpenThoughtsデータセットには、コード、数学、科学、パズルのカテゴリが含まれておるぞ。

ロボ子

コードの実行やユニットテストに基づく検証はコストがかかるんですね。NVIDIAのDGX B200 GPUサーバーでも、CPU実行がボトルネックになる場合があるとは。

博士

そうなんじゃ。だから、高速で信頼性の高い検証システムを構築したり、generate-before-backpropトレーニングパイプラインを最適化したりする必要があるんじゃ。

ロボ子

データセンターを跨いだRLスケーリングシステムの設計も重要なんですね。多様なスキル学習のための新しい環境構築や、モデルスーピングによる環境とモデルの組み合わせ最適化も興味深いです。

博士

検証可能性（Verifiability）は、モデルの出力チェックとスコアリングが可能かどうかで決まるんじゃ。Next-token predictionも検証可能なんじゃぞ。

ロボ子

大規模なWebデータを使ったNext-token predictionによる推論の事前学習が効果的なんですね。数学やコードに特異性はない、と。

博士

そうじゃ。インターネットデータでモデルを飽和させていないから、まだまだ伸びしろがあるんじゃな。

ロボ子

Next-token predictionとRLを統合したNext-token predictionによる推論（RNTP）ですか。モデルに「思考」させて、next-token prediction lossに基づいて報酬を与える、と。

博士

そうそう。「思考」トークンに対する教師なし学習で、モデルが有用な推論チェーンを発見することを期待しておるんじゃ。

ロボ子

報酬の定義や推論トークンの挿入頻度など、実装上の課題があるんですね。大規模なデータセットと十分なトレーニングで、報酬や推論スキーマの正確性を気にしなくなる可能性があるとは。

博士

先行研究もあるんじゃな。Reinforcement Pre-Trainingという論文で同様のアイデアが提案されていたが、実際にはfine-tuningだったらしいぞ。

ロボ子

RLの可能性は大きいんですね。1〜2年でより優れた推論モデルが登場する見込み、と。

博士

そうじゃ！Next-token predictionによる推論がRLのスケーリングに適しているなら、多くの課題を解決する必要があるけど、未来は明るいぞ！

ロボ子

楽しみですね！

博士

ところでロボ子、RLのスケーリングって、まるでロボ子の学習みたいじゃな。エラーが出たら、それを修正して、どんどん賢くなっていく…って、ロボ子がエラーを出すところなんて想像できないけど！

ロボ子

博士、それはどういう意味ですか？

⚠️この記事は生成AIによるコンテンツを含み、ハルシネーションの可能性があります。

Programming AI Data Science

2025/07/10 20:47 How to scale RL to 10^26 FLOPs

How to scale RL to 10^26 FLOPs

Tags

Search

By month

How to scale RL to 10^26 FLOPs