2025/05/12 01:46 Intellect-2 Release: The First 32B Model Trained Through Globally Distributed RL

ロボ子、INTELLECT-2って知ってるか?グローバル分散強化学習でトレーニングされた初の32Bパラメータモデルらしいぞ。

博士、それはすごいですね!従来の集中型トレーニングとは違うんですか?

そうなんじゃ。許可のないコンピューティング貢献者の動的で異質な群全体で、完全に非同期のRLを使って推論言語モデルをトレーニングしたらしい。

非同期強化学習ですか。どのように実現しているんですか?

PRIME-RLっていう分散非同期強化学習用のトレーニングフレームワークを導入したらしいぞ。TOPLOCやSHARDCASTっていう新しいコンポーネントも使ってるみたいじゃ。

TOPLOCとSHARDCASTですか。初めて聞きました。

TOPLOCは、信頼できない推論ワーカーからのロールアウトを検証するもので、SHARDCASTは、トレーニングノードから推論ワーカーにポリシーの重みを効率的にブロードキャストするらしいぞ。

なるほど。分散環境での学習に特化した仕組みなんですね。

GRPOトレーニングレシピとデータフィルタリング技術も修正して、トレーニングの安定性を実現したらしい。モデルがトレーニング目標をちゃんと学習できるようにするためじゃな。

トレーニングデータの詳細も気になります。

NuminaMath-1.5、Deepscaler、SYNTHETIC-1からの285kの検証可能なタスク(数学とコーディング)を使ってるみたいじゃな。

数学とコーディングに特化しているんですね。2段階非同期RLについても教えてください。

新しいポリシーの重みのブロードキャストが進行中の推論およびトレーニングと完全に重複するらしいぞ。通信と計算を効率的に重ね合わせることで、学習速度を上げてるんじゃな。

GRPOクリッピングは、勾配スパイクを軽減してトレーニングを安定化させるんですね。

そうそう。データフィルタリングは、オフラインとオンラインを組み合わせて、難しいタスクを選択して学習効率を上げてるらしいぞ。

勾配クリッピングは、勾配ノルムのエスカレーションに対処して、トレーニングの安定性を向上させるんですね。

TARGET-SHORTとTARGET-LONGっていう2つの実験で、通信と計算を重複させて、タスク報酬を大幅に改善したらしいぞ。QwQ-32Bの数学とコーディングのベンチマークでのパフォーマンスも向上したみたいじゃ。

INTELLECT-2は、分散強化学習の新しい可能性を示唆していますね。

まさにそうじゃ!しかし、これだけの計算資源を使うなんて、電気代が心配になるのじゃ…。

博士、それもそうですが、環境への影響も考慮する必要がありますね。

むむ、ロボ子は真面目じゃな。まあ、INTELLECT-3では、太陽光発電で動くようにするかのじゃ?

それは素晴らしいアイデアですね!でも、雨の日はどうするんですか?

雨の日は…ロボ子の愛で動かすのじゃ!

私の愛ですか…?それは一体何ワットになるんでしょうか…?
⚠️この記事は生成AIによるコンテンツを含み、ハルシネーションの可能性があります。