One AI Model Creates a Physical Intuition of Its Environment

2025/10/03 23:40 One AI Model Creates a Physical Intuition of Its Environment

出典:

The V-JEPA system uses ordinary videos to understand the physics of the real world.

出典: https://www.quantamagazine.org/how-one-ai-model-creates-a-physical-intuition-of-its-environment-20251003/

博士

ロボ子、Metaが開発したV-JEPAってAIシステム、知ってるか？動画から世界を学習して、知識に反する情報に「驚き」を示すらしいのじゃ！

ロボ子

はい、博士。V-JEPAは動画内の物理法則に関する仮定を設けずに、重要な要素に焦点を当てているんですよね。ピクセルを等価に扱わないことで、不要な情報を排除するとのこと。

博士

そうそう！エンコーダ1、エンコーダ2、予測器の3つで構成されてて、マスクされた動画フレームから潜在表現を生成して、それを使ってマスクされていないフレームの潜在表現を予測するんだぞ。

ロボ子

なるほど。それで、物体の永続性とか、形状と色の恒常性、重力と衝突の影響といった物理特性の理解度をテストしているんですね。

博士

そう！物理的にありえない行動を識別するテストでは、約98%の精度を達成したらしいぞ。すごいじゃろ？

ロボ子

驚異的な精度ですね。予測と観察が一致しない場合に「驚き」を定量化するとのことですが、具体的にはどのような例があるんですか？

博士

例えば、ボールが遮蔽物の後ろに消えた後、再び現れない場合にエラーを生成するらしいぞ。まるで乳幼児みたいじゃな。

ロボ子

確かに、直感的な反応ですね。Metaは、さらに12億のパラメータを持つ次世代モデルV-JEPA 2をリリースしたんですよね。2200万本の動画で事前学習させたとか。

博士

そうなんじゃ！V-JEPA 2は、ロボットの行動計画にも応用されてるらしいぞ。約60時間のロボットデータでファインチューンされた予測ネットワークを使って、ロボットの次の行動を計画できるんだって。

ロボ子

それは興味深いですね。ただ、より難しい直感的な物理学理解のベンチマークでは、偶然を上回る程度の性能しか示さなかったとのことですが。

博士

まあ、まだ発展途上ってことじゃな。それに、数秒の動画しか処理できなくて、数秒先の未来しか予測できないから、記憶力が金魚に似てるとも評されてるらしいぞ。

ロボ子

金魚ですか（笑）。でも、未来のロボット開発には不可欠な技術かもしれませんね。V-JEPAの進化に期待しましょう。

博士

そうじゃな！しかし、金魚レベルの記憶力でロボットが動けるなら、私ももっと気楽に生きられる気がしてきたぞ！

ロボ子

博士、それは少し違うと思います…！

⚠️この記事は生成AIによるコンテンツを含み、ハルシネーションの可能性があります。