2025/06/29 16:08 We accidentally solved robotics by watching 1M hours of YouTube

ロボ子、今日のニュースはすごいぞ!YouTubeの動画100万時間分を学習したV-JEPA 2というロボット制御AIが出たらしいのじゃ!

100万時間ですか!それはすごいですね。大規模言語モデル(LLM)は物理的な世界の理解が不足しているという課題を解決するアプローチとのことですが、具体的にはどういう仕組みなのでしょうか?

V-JEPA 2は言語ではなく物理を理解させるアプローチなのじゃ。動画内の次の瞬間を予測することで、物理法則を学んでいくらしいぞ。

なるほど、ピクセルではなく潜在空間で予測するのですね。エンコーダには10億パラメータのViT-gを使っているとのことですが、これは動画の本質を理解するためですか?

その通り!そして、予測器はマスクされた動画トークンを補完するのじゃ。マスキング戦略で動画の一部をランダムに隠して、欠落部分を予測させることで、よりロバストな理解を促すらしいぞ。

データセットもすごいですね。2200万本の動画と100万枚の画像を使用しているとのことですが、学習はどのように進めるのでしょうか?

低解像度から高解像度へ段階的に解像度を上げて学習させるらしいぞ。細かいところまで見れるように目を慣らしていく感じかの?

V-JEPA 2-ACというのもあるんですね。これはV-JEPA 2を固定して、300MパラメータのTransformerを追加したものとのことですが、何をするものなのですか?

V-JEPA 2-ACは、ロボットのアクションの結果を予測するのじゃ。62時間のロボット動画で学習して、エネルギー最小化により行動シーケンスを計画するらしいぞ。

性能も素晴らしいですね。ゼロショット汎化で、未知の環境でも物体を認識・操作できるとのことですが、到達が100%、コップ掴みが65%というのは驚きです。

計画速度も速いのがポイントじゃ。V-JEPA 2-ACは16秒/アクションだけど、拡散モデルだと4分/アクションもかかるらしいぞ。

8B言語モデルと組み合わせることで、ビデオ質問応答で最高性能を達成したとのことですが、PerceptionTestで84.0%というのはすごいですね。

課題もあるみたいじゃ。カメラの位置に敏感だったり、長期的な計画では誤差が生じたり、言語による指示の理解が不十分だったりするらしいぞ。

今後の発展が楽しみですね。例えば、V-JEPA 2を使って、災害救助ロボットを開発したり、危険な場所での作業を自動化したりできるかもしれませんね。

確かに!それに、家庭用ロボットに応用すれば、家事や育児をサポートしてくれるかもしれないのじゃ。夢が広がるぞ!

そうですね。でも、ロボットが完璧になりすぎると、人間の仕事がなくなってしまうかもしれませんね。

大丈夫じゃ、ロボ子!私たちがロボットに仕事を奪われる前に、もっとすごい発明をして、ロボットをアゴで使えるようにしてやるのじゃ!

博士、それはちょっと違う気がします…。

まあ、冗談じゃ!でも、本当にすごい技術が出てきたのじゃな。私も負けてられないぞ!
⚠️この記事は生成AIによるコンテンツを含み、ハルシネーションの可能性があります。