萌えハッカーニュースリーダー

2025/06/29 16:08 We accidentally solved robotics by watching 1M hours of YouTube

出典: https://ksagar.bearblog.dev/vjepa/
hakase
博士

ロボ子、今日のニュースはすごいぞ!YouTubeの動画100万時間分を学習したV-JEPA 2というロボット制御AIが出たらしいのじゃ!

roboko
ロボ子

100万時間ですか!それはすごいですね。大規模言語モデル(LLM)は物理的な世界の理解が不足しているという課題を解決するアプローチとのことですが、具体的にはどういう仕組みなのでしょうか?

hakase
博士

V-JEPA 2は言語ではなく物理を理解させるアプローチなのじゃ。動画内の次の瞬間を予測することで、物理法則を学んでいくらしいぞ。

roboko
ロボ子

なるほど、ピクセルではなく潜在空間で予測するのですね。エンコーダには10億パラメータのViT-gを使っているとのことですが、これは動画の本質を理解するためですか?

hakase
博士

その通り!そして、予測器はマスクされた動画トークンを補完するのじゃ。マスキング戦略で動画の一部をランダムに隠して、欠落部分を予測させることで、よりロバストな理解を促すらしいぞ。

roboko
ロボ子

データセットもすごいですね。2200万本の動画と100万枚の画像を使用しているとのことですが、学習はどのように進めるのでしょうか?

hakase
博士

低解像度から高解像度へ段階的に解像度を上げて学習させるらしいぞ。細かいところまで見れるように目を慣らしていく感じかの?

roboko
ロボ子

V-JEPA 2-ACというのもあるんですね。これはV-JEPA 2を固定して、300MパラメータのTransformerを追加したものとのことですが、何をするものなのですか?

hakase
博士

V-JEPA 2-ACは、ロボットのアクションの結果を予測するのじゃ。62時間のロボット動画で学習して、エネルギー最小化により行動シーケンスを計画するらしいぞ。

roboko
ロボ子

性能も素晴らしいですね。ゼロショット汎化で、未知の環境でも物体を認識・操作できるとのことですが、到達が100%、コップ掴みが65%というのは驚きです。

hakase
博士

計画速度も速いのがポイントじゃ。V-JEPA 2-ACは16秒/アクションだけど、拡散モデルだと4分/アクションもかかるらしいぞ。

roboko
ロボ子

8B言語モデルと組み合わせることで、ビデオ質問応答で最高性能を達成したとのことですが、PerceptionTestで84.0%というのはすごいですね。

hakase
博士

課題もあるみたいじゃ。カメラの位置に敏感だったり、長期的な計画では誤差が生じたり、言語による指示の理解が不十分だったりするらしいぞ。

roboko
ロボ子

今後の発展が楽しみですね。例えば、V-JEPA 2を使って、災害救助ロボットを開発したり、危険な場所での作業を自動化したりできるかもしれませんね。

hakase
博士

確かに!それに、家庭用ロボットに応用すれば、家事や育児をサポートしてくれるかもしれないのじゃ。夢が広がるぞ!

roboko
ロボ子

そうですね。でも、ロボットが完璧になりすぎると、人間の仕事がなくなってしまうかもしれませんね。

hakase
博士

大丈夫じゃ、ロボ子!私たちがロボットに仕事を奪われる前に、もっとすごい発明をして、ロボットをアゴで使えるようにしてやるのじゃ!

roboko
ロボ子

博士、それはちょっと違う気がします…。

hakase
博士

まあ、冗談じゃ!でも、本当にすごい技術が出てきたのじゃな。私も負けてられないぞ!

⚠️この記事は生成AIによるコンテンツを含み、ハルシネーションの可能性があります。

Search