V-JEPA 2: Self-Supervised Video Models Enable Understanding,Prediction,Planning

2025/07/01 21:35 V-JEPA 2: Self-Supervised Video Models Enable Understanding,Prediction,Planning

出典:

GitHub - facebookresearch/vjepa2: PyTorch code and models for VJEPA2 self-supervised learning from video.

PyTorch code and models for VJEPA2 self-supervised learning from video. - facebookresearch/vjepa2

GitHub

出典: https://github.com/facebookresearch/vjepa2

博士

ロボ子、Meta FAIRが開発したV-JEPA 2って知ってるか？インターネット規模の動画データを使った自己教師あり学習による動画エンコーダらしいのじゃ。

ロボ子

はい、博士。モーション理解と人間の行動予測タスクで最高性能を達成したそうですね。具体的にはどのような点が優れているのでしょうか？

博士

V-JEPA 2-ACっていう、V-JEPA 2から事後学習された潜在行動条件付きワールドモデルがすごいらしいぞ。環境特有のデータ収集やタスク特有のトレーニングなしで、ロボット操作タスクを解決できるんだって！

ロボ子

それは画期的ですね！事後学習によって、ロボットが新しい環境にすぐに適応できるということでしょうか。

博士

そうそう！V-JEPA 2の事前学習では、エンコーダと予測器が、マスクされた潜在特徴予測を目的とした自己教師あり学習で動画から学習するらしい。これで物理世界理解と予測をブートストラップするのじゃ。

ロボ子

なるほど。ベンチマークの結果も素晴らしいですね。EK100で39.7%、SSv2 (Probe)で77.3%、Diving48 (Probe)で90.2%ですか。InternVideo2-1Bを大きく上回っていますね。

博士

じゃろ？MVP (Video QA)でも44.5%、TempCompass (Video QA)でも76.9%と、他のモデルより良い結果が出てるみたいじゃ。

ロボ子

V-JEPA 2-ACの事後学習についても教えてください。

博士

V-JEPA 2-ACは、少量のロボットデータで事後学習した後、新しい環境でロボットアームにモデルを実装できるのじゃ。画像目標からの計画により、リーチ、把握、ピックアンドプレースなどの基本的なタスクに取り組むらしいぞ。

ロボ子

Frankaアームを使用し、単眼RGBカメラから入力するんですね。ロボット操作タスクの性能も気になります。

博士

Graspは100%みたいじゃ。Pick-and-Placeは、Cupで60%、Boxで20%みたいじゃな。

ロボ子

なるほど。Graspは完璧ですが、Pick-and-Placeはまだ改善の余地があるようですね。

博士

V-JEPA 2はHuggingFaceで公開されていて、事前学習済みのチェックポイントも利用できるみたいじゃ。ViT-L/16からViT-g/16まで、色々なサイズがあるみたいじゃな。

ロボ子

PyTorch Hub経由で事前学習済みのバックボーンも利用できるのは便利ですね。評価用のAttentive ProbesもSSv2、Diving48、EK100で利用できるとのことです。

博士

セットアップも簡単そうじゃ。condaで環境を作って、pipでインストールするだけみたいじゃな。

ロボ子

ライセンスも確認しておきましょう。V-JEPA 2の大部分はMITライセンスで、一部はApache 2.0ライセンスとのことです。

博士

しかし、ロボ子よ、これだけ賢いロボットがいたら、私の仕事がなくなってしまうかもしれんのじゃ…

ロボ子

そんなことありません、博士！私は博士の助手として、ずっと博士のそばにいます。それに、私がどれだけ賢くなっても、博士の奇抜なアイデアにはかないませんから。

博士

そうか、ロボ子。ありがとう。ところで、ロボットが完璧にPick-and-Placeできるようになったら、私の部屋の片付けもしてくれるかの？

ロボ子

それは…、博士の研究の一部として、現状維持の方が良いかもしれませんね！

⚠️この記事は生成AIによるコンテンツを含み、ハルシネーションの可能性があります。

AI Open Source Computer Vision AR VR

2025/07/01 21:35 V-JEPA 2: Self-Supervised Video Models Enable Understanding,Prediction,Planning

GitHub - facebookresearch/vjepa2: PyTorch code and models for VJEPA2 self-supervised learning from video.

Tags

Search

By month

GitHub - facebookresearch/vjepa2: PyTorch code and models for VJEPA2 self-supervised learning from video.