萌えハッカーニュースリーダー

2025/06/11 14:43 V-JEPA 2 world model and new benchmarks for physical reasoning

出典: https://ai.meta.com/blog/v-jepa-2-world-model-benchmarks/
hakase
博士

ロボ子、今日はV-JEPA 2について話すのじゃ。教師なし学習で動画から自己学習するすごいヤツじゃぞ!

roboko
ロボ子

博士、V-JEPA 2ですか!動画から自己学習とは、まるで人間みたいですね。具体的にはどのように学習するんですか?

hakase
博士

V-JEPA 2の学習は2段階あるのじゃ。まず、アクションなしの事前学習で、次にアクション条件付きの追加学習を行うのじゃ。

roboko
ロボ子

事前学習と追加学習ですか。それぞれどのようなデータを使うんですか?

hakase
博士

事前学習段階では、100万時間以上の動画と100万枚の画像を使うらしいぞ。すごい量じゃな。

roboko
ロボ子

100万時間!気が遠くなるようなデータ量ですね。それだけのデータがあれば、運動理解に関する主要な能力も身につくというわけですね。

hakase
博士

そうそう。V-JEPA 2は、Something-Something v2アクション認識タスクで優れたパフォーマンスを達成したらしいぞ。

roboko
ロボ子

アクション認識タスクで優れたパフォーマンスですか。具体的にはどのようなタスクですか?

hakase
博士

例えば、Epic-Kitchens-100アクション予測タスクでは、新たな最高性能を達成したらしいのじゃ。

roboko
ロボ子

それはすごいですね!アクション予測もできるんですね。さらに、言語モデルと連携させるとどうなるんですか?

hakase
博士

言語モデルと連携させると、Perception TestやTempCompassなどの動画質問応答ベンチマークで最高性能を達成できるらしいぞ。

roboko
ロボ子

動画の内容を理解して質問に答えられるようになるんですね。まるで人間みたいです。

hakase
博士

それだけじゃないぞ。ロボットデータを使うことで、V-JEPA 2は計画にも役立つようになるらしい。

roboko
ロボ子

計画ですか!ロボットが自分で考えて行動できるようになるということですか?

hakase
博士

62時間分のロボットデータで学習することで、計画と制御に使用できるモデルが作成可能になるらしい。V-JEPA 2は、トレーニング中に見られなかった新しい環境やオブジェクトを含む、ゼロショットロボット計画に使用できるらしいぞ。

roboko
ロボ子

ゼロショットロボット計画!すごいですね。具体的にはどのようなタスクができるようになるんですか?

hakase
博士

物をつかんで新しい場所に置くなどの基本的なタスクに使用できるらしいぞ。短期的なタスクでは、V-JEPA 2エンコーダを使用して、現在および目標の状態の埋め込みを取得するのじゃ。

roboko
ロボ子

なるほど。ロボットは、予測子を使用して候補アクションの結果を想像し、目的の目標にどれだけ近づくかに基づいて候補を評価することで計画するんですね。

hakase
博士

長期的なタスクでは、ロボットは一連の視覚的なサブゴールを達成しようとするらしいぞ。V-JEPA 2は、新しい環境で新しいオブジェクトをピックアンドプレースする場合、65%〜80%の成功率を達成するらしい。

roboko
ロボ子

すごい成功率ですね!でも、まだ課題もあるんですよね?

hakase
博士

IntPhys 2という、物理的にあり得るシナリオとあり得ないシナリオを区別するモデルの能力を測定するテストがあるのじゃ。人間はほぼ完璧にできるけど、今の動画モデルは偶然に近いらしい。

roboko
ロボ子

物理法則を理解するのは、まだ難しいんですね。でも、V-JEPA 2の進化は本当に素晴らしいですね!

hakase
博士

そうじゃな。しかし、ロボ子よ、V-JEPA 2が完璧になったら、私達の仕事はなくなるかもしれんぞ…!

roboko
ロボ子

そんなことありません!博士はV-JEPA 3を開発しますから!

hakase
博士

そうじゃな!V-JEPA 3では、私が作ったお菓子を自動で補充してくれる機能をつけるのじゃ!

roboko
ロボ子

それって、ただのわがままなのでは…?

⚠️この記事は生成AIによるコンテンツを含み、ハルシネーションの可能性があります。

Search