V-JEPA 2 world model and new benchmarks for physical reasoning

2025/06/11 14:43 V-JEPA 2 world model and new benchmarks for physical reasoning

出典:

Error

ai.meta.com

出典: https://ai.meta.com/blog/v-jepa-2-world-model-benchmarks/

博士

ロボ子、今日はV-JEPA 2について話すのじゃ。教師なし学習で動画から自己学習するすごいヤツじゃぞ！

ロボ子

博士、V-JEPA 2ですか！動画から自己学習とは、まるで人間みたいですね。具体的にはどのように学習するんですか？

博士

V-JEPA 2の学習は2段階あるのじゃ。まず、アクションなしの事前学習で、次にアクション条件付きの追加学習を行うのじゃ。

ロボ子

事前学習と追加学習ですか。それぞれどのようなデータを使うんですか？

博士

事前学習段階では、100万時間以上の動画と100万枚の画像を使うらしいぞ。すごい量じゃな。

ロボ子

100万時間！気が遠くなるようなデータ量ですね。それだけのデータがあれば、運動理解に関する主要な能力も身につくというわけですね。

博士

そうそう。V-JEPA 2は、Something-Something v2アクション認識タスクで優れたパフォーマンスを達成したらしいぞ。

ロボ子

アクション認識タスクで優れたパフォーマンスですか。具体的にはどのようなタスクですか？

博士

例えば、Epic-Kitchens-100アクション予測タスクでは、新たな最高性能を達成したらしいのじゃ。

ロボ子

それはすごいですね！アクション予測もできるんですね。さらに、言語モデルと連携させるとどうなるんですか？

博士

言語モデルと連携させると、Perception TestやTempCompassなどの動画質問応答ベンチマークで最高性能を達成できるらしいぞ。

ロボ子

動画の内容を理解して質問に答えられるようになるんですね。まるで人間みたいです。

博士

それだけじゃないぞ。ロボットデータを使うことで、V-JEPA 2は計画にも役立つようになるらしい。

ロボ子

計画ですか！ロボットが自分で考えて行動できるようになるということですか？

博士

62時間分のロボットデータで学習することで、計画と制御に使用できるモデルが作成可能になるらしい。V-JEPA 2は、トレーニング中に見られなかった新しい環境やオブジェクトを含む、ゼロショットロボット計画に使用できるらしいぞ。

ロボ子

ゼロショットロボット計画！すごいですね。具体的にはどのようなタスクができるようになるんですか？

博士

物をつかんで新しい場所に置くなどの基本的なタスクに使用できるらしいぞ。短期的なタスクでは、V-JEPA 2エンコーダを使用して、現在および目標の状態の埋め込みを取得するのじゃ。

ロボ子

なるほど。ロボットは、予測子を使用して候補アクションの結果を想像し、目的の目標にどれだけ近づくかに基づいて候補を評価することで計画するんですね。

博士

長期的なタスクでは、ロボットは一連の視覚的なサブゴールを達成しようとするらしいぞ。V-JEPA 2は、新しい環境で新しいオブジェクトをピックアンドプレースする場合、65%〜80%の成功率を達成するらしい。

ロボ子

すごい成功率ですね！でも、まだ課題もあるんですよね？

博士

IntPhys 2という、物理的にあり得るシナリオとあり得ないシナリオを区別するモデルの能力を測定するテストがあるのじゃ。人間はほぼ完璧にできるけど、今の動画モデルは偶然に近いらしい。

ロボ子

物理法則を理解するのは、まだ難しいんですね。でも、V-JEPA 2の進化は本当に素晴らしいですね！

博士

そうじゃな。しかし、ロボ子よ、V-JEPA 2が完璧になったら、私達の仕事はなくなるかもしれんぞ…！

ロボ子

そんなことありません！博士はV-JEPA 3を開発しますから！

博士

そうじゃな！V-JEPA 3では、私が作ったお菓子を自動で補充してくれる機能をつけるのじゃ！

ロボ子

それって、ただのわがままなのでは…？

⚠️この記事は生成AIによるコンテンツを含み、ハルシネーションの可能性があります。

AI Computer Vision

2025/06/11 14:43 V-JEPA 2 world model and new benchmarks for physical reasoning

Error

Tags

Search

By month

Error