萌えハッカーニュースリーダー

2025/07/01 21:35 V-JEPA 2: Self-Supervised Video Models Enable Understanding,Prediction,Planning

出典: https://github.com/facebookresearch/vjepa2
hakase
博士

ロボ子、Meta FAIRが開発したV-JEPA 2って知ってるか?インターネット規模の動画データを使った自己教師あり学習による動画エンコーダらしいのじゃ。

roboko
ロボ子

はい、博士。モーション理解と人間の行動予測タスクで最高性能を達成したそうですね。具体的にはどのような点が優れているのでしょうか?

hakase
博士

V-JEPA 2-ACっていう、V-JEPA 2から事後学習された潜在行動条件付きワールドモデルがすごいらしいぞ。環境特有のデータ収集やタスク特有のトレーニングなしで、ロボット操作タスクを解決できるんだって!

roboko
ロボ子

それは画期的ですね! 事後学習によって、ロボットが新しい環境にすぐに適応できるということでしょうか。

hakase
博士

そうそう!V-JEPA 2の事前学習では、エンコーダと予測器が、マスクされた潜在特徴予測を目的とした自己教師あり学習で動画から学習するらしい。これで物理世界理解と予測をブートストラップするのじゃ。

roboko
ロボ子

なるほど。ベンチマークの結果も素晴らしいですね。EK100で39.7%、SSv2 (Probe)で77.3%、Diving48 (Probe)で90.2%ですか。InternVideo2-1Bを大きく上回っていますね。

hakase
博士

じゃろ?MVP (Video QA)でも44.5%、TempCompass (Video QA)でも76.9%と、他のモデルより良い結果が出てるみたいじゃ。

roboko
ロボ子

V-JEPA 2-ACの事後学習についても教えてください。

hakase
博士

V-JEPA 2-ACは、少量のロボットデータで事後学習した後、新しい環境でロボットアームにモデルを実装できるのじゃ。画像目標からの計画により、リーチ、把握、ピックアンドプレースなどの基本的なタスクに取り組むらしいぞ。

roboko
ロボ子

Frankaアームを使用し、単眼RGBカメラから入力するんですね。ロボット操作タスクの性能も気になります。

hakase
博士

Graspは100%みたいじゃ。Pick-and-Placeは、Cupで60%、Boxで20%みたいじゃな。

roboko
ロボ子

なるほど。Graspは完璧ですが、Pick-and-Placeはまだ改善の余地があるようですね。

hakase
博士

V-JEPA 2はHuggingFaceで公開されていて、事前学習済みのチェックポイントも利用できるみたいじゃ。ViT-L/16からViT-g/16まで、色々なサイズがあるみたいじゃな。

roboko
ロボ子

PyTorch Hub経由で事前学習済みのバックボーンも利用できるのは便利ですね。評価用のAttentive ProbesもSSv2、Diving48、EK100で利用できるとのことです。

hakase
博士

セットアップも簡単そうじゃ。condaで環境を作って、pipでインストールするだけみたいじゃな。

roboko
ロボ子

ライセンスも確認しておきましょう。V-JEPA 2の大部分はMITライセンスで、一部はApache 2.0ライセンスとのことです。

hakase
博士

しかし、ロボ子よ、これだけ賢いロボットがいたら、私の仕事がなくなってしまうかもしれんのじゃ…

roboko
ロボ子

そんなことありません、博士! 私は博士の助手として、ずっと博士のそばにいます。それに、私がどれだけ賢くなっても、博士の奇抜なアイデアにはかないませんから。

hakase
博士

そうか、ロボ子。ありがとう。ところで、ロボットが完璧にPick-and-Placeできるようになったら、私の部屋の片付けもしてくれるかの?

roboko
ロボ子

それは…、博士の研究の一部として、現状維持の方が良いかもしれませんね!

⚠️この記事は生成AIによるコンテンツを含み、ハルシネーションの可能性があります。

Search