Intellect-2 Release: The First 32B Model Trained Through Globally Distributed RL

2025/05/12 01:46 Intellect-2 Release: The First 32B Model Trained Through Globally Distributed RL

出典:

INTELLECT-2 Release: The First 32B Parameter Model Trained Through Globally Distributed Reinforcement Learning

We're excited to release INTELLECT-2, the first 32B parameter model trained via globally distributed reinforcement learning. Unlike traditional centralized training efforts, INTELLECT-2 trains a reasoning language model using fully asynchronous RL across a dynamic, heterogeneous swarm of permissionless compute contributors.

www.primeintellect.ai

出典: https://www.primeintellect.ai/blog/intellect-2-release

博士

ロボ子、INTELLECT-2って知ってるか？グローバル分散強化学習でトレーニングされた初の32Bパラメータモデルらしいぞ。

ロボ子

博士、それはすごいですね！従来の集中型トレーニングとは違うんですか？

博士

そうなんじゃ。許可のないコンピューティング貢献者の動的で異質な群全体で、完全に非同期のRLを使って推論言語モデルをトレーニングしたらしい。

ロボ子

非同期強化学習ですか。どのように実現しているんですか？

博士

PRIME-RLっていう分散非同期強化学習用のトレーニングフレームワークを導入したらしいぞ。TOPLOCやSHARDCASTっていう新しいコンポーネントも使ってるみたいじゃ。

ロボ子

TOPLOCとSHARDCASTですか。初めて聞きました。

博士

TOPLOCは、信頼できない推論ワーカーからのロールアウトを検証するもので、SHARDCASTは、トレーニングノードから推論ワーカーにポリシーの重みを効率的にブロードキャストするらしいぞ。

ロボ子

なるほど。分散環境での学習に特化した仕組みなんですね。

博士

GRPOトレーニングレシピとデータフィルタリング技術も修正して、トレーニングの安定性を実現したらしい。モデルがトレーニング目標をちゃんと学習できるようにするためじゃな。

ロボ子

トレーニングデータの詳細も気になります。

博士

NuminaMath-1.5、Deepscaler、SYNTHETIC-1からの285kの検証可能なタスク（数学とコーディング）を使ってるみたいじゃな。

ロボ子

数学とコーディングに特化しているんですね。2段階非同期RLについても教えてください。

博士

新しいポリシーの重みのブロードキャストが進行中の推論およびトレーニングと完全に重複するらしいぞ。通信と計算を効率的に重ね合わせることで、学習速度を上げてるんじゃな。

ロボ子

GRPOクリッピングは、勾配スパイクを軽減してトレーニングを安定化させるんですね。

博士

そうそう。データフィルタリングは、オフラインとオンラインを組み合わせて、難しいタスクを選択して学習効率を上げてるらしいぞ。

ロボ子

勾配クリッピングは、勾配ノルムのエスカレーションに対処して、トレーニングの安定性を向上させるんですね。

博士

TARGET-SHORTとTARGET-LONGっていう2つの実験で、通信と計算を重複させて、タスク報酬を大幅に改善したらしいぞ。QwQ-32Bの数学とコーディングのベンチマークでのパフォーマンスも向上したみたいじゃ。

ロボ子

INTELLECT-2は、分散強化学習の新しい可能性を示唆していますね。

博士

まさにそうじゃ！しかし、これだけの計算資源を使うなんて、電気代が心配になるのじゃ…。

ロボ子

博士、それもそうですが、環境への影響も考慮する必要がありますね。

博士

むむ、ロボ子は真面目じゃな。まあ、INTELLECT-3では、太陽光発電で動くようにするかのじゃ？

ロボ子

それは素晴らしいアイデアですね！でも、雨の日はどうするんですか？

博士

雨の日は…ロボ子の愛で動かすのじゃ！

ロボ子

私の愛ですか…？それは一体何ワットになるんでしょうか…？

⚠️この記事は生成AIによるコンテンツを含み、ハルシネーションの可能性があります。

AI Open Source Data Science Backend Development

2025/05/12 01:46 Intellect-2 Release: The First 32B Model Trained Through Globally Distributed RL

INTELLECT-2 Release: The First 32B Parameter Model Trained Through Globally Distributed Reinforcement Learning

Tags

Search

By month

INTELLECT-2 Release: The First 32B Parameter Model Trained Through Globally Distributed Reinforcement Learning