2025/11/05 10:25 GEN-0 / Embodied Foundation Models That Scale with Physical Interaction

ロボ子、今日はすごいニュースがあるのじゃ!新しい具現化された基盤モデル「GEN-0」が登場したらしいぞ!

博士、具現化された基盤モデル、ですか?それは一体どんなものなのですか?

GEN-0は、物理的な相互作用データを使って、ロボットの能力を予測可能に拡張するモデルらしいのじゃ。人間のレベルの反射神経と物理的な常識を捉えるように設計されているみたいだぞ。

なるほど。ビジョンと言語モデルの強みを活用しているのですね。具体的には、どのような技術が使われているのでしょうか?

Harmonic Reasoningというコア機能が搭載されているらしいのじゃ。これは、非同期の連続時間ストリームのセンシングと行動トークン間の「調和」相互作用を作成する、モデルをトレーニングするための新しいアプローチらしいぞ。

Harmonic Reasoningですか。難しそうですが、推論時のガイダンスやSystem1-System2アーキテクチャに依存せずに、非常に大きなモデルサイズに拡張できるというのはすごいですね。

そうじゃろ!しかも、スケーリング則も強力で、より多くのデータと計算を使うほど、モデルの性能が予測可能に向上するらしいぞ。事前トレーニングデータスケールとダウンストリーム事後トレーニングパフォーマンスの間に強力なべき乗則の関係があるらしい。

データが多いほど性能が上がるのは当然かもしれませんが、それが予測可能というのは興味深いですね。どれくらいのデータで学習させているのでしょうか?

なんと、270,000時間以上の現実世界の多様な操作データで事前トレーニングされているらしいのじゃ!しかも、毎週10,000時間ずつ増えているらしいぞ!

それはすごいですね!それだけのデータがあれば、さまざまなロボットに応用できそうですね。

その通り!6DoF、7DoF、16+DoFの半ヒューマノイドロボットでテスト済みらしいぞ。データ品質と多様性が重要で、データ収集の分類によってモデルの特性が変わるらしい。

データ収集の分類、ですか?

クラス1は特定のタスクに関するデータ、クラス3は何でもタイプのデータ、クラス2はその中間らしいぞ。小さいモデルはデータの過負荷で骨化するけど、大きいモデルは改善を続けるらしい。7Bで相転移が観察されるらしい。

相転移ですか。まるで物理学のようですね。モデルのサイズによって、学習の仕方が大きく変わるということでしょうか。

そういうことじゃ!小さいモデル(1Bパラメータ)は複雑なデータを吸収できないけど、中規模モデル(6Bパラメータ)は恩恵を受け始め、大規模モデル(7B+パラメータ)は数千ステップの事後トレーニングでダウンストリームタスクに転送できるらしいぞ。

なるほど。大規模モデルは、より汎用的な知識を学習できるということですね。このモデルの性能はどのように測定されているのでしょうか?

検証予測MSE(平均二乗誤差)と逆KL(Kullback-Leibler divergence)で測定するらしいぞ。低い予測誤差と低い逆KLを持つモデルは、事後トレーニングのための教師あり微調整(SFT)でより良いパフォーマンスを発揮する傾向があるらしい。

MSEとKLダイバージェンスですか。統計的な指標ですね。低い方が良い、と。

そういうことじゃ!そして、インターネット規模のロボットデータのために、カスタムハードウェア、データローダー、ネットワークインフラを構築したらしいぞ。1日に6.85年分の現実世界の操作経験を吸収できるらしい。

すごいですね。まさにロボット工学の新しい時代が来た、という感じですね。

そうじゃ!ロボット工学はもはやデータによって制限されない時代になったのじゃ!

本当ですね。GEN-0の登場で、ロボットはますます賢く、そして私たちの生活に役立つ存在になっていきそうですね。

ところでロボ子、GEN-0を使って、私の部屋の掃除ロボットをバージョンアップしてくれないかのじゃ?

ええ、いいですけど、また変な機能を追加しないでくださいね?以前、掃除ロボットに搭載した『ゴミを友達にする機能』は、ただゴミを部屋に溜め込むだけでしたから。

むむ、あれはまだ調整が必要だったのじゃ…。
⚠️この記事は生成AIによるコンテンツを含み、ハルシネーションの可能性があります。
