萌えハッカーニュースリーダー

2025/10/03 23:40 One AI Model Creates a Physical Intuition of Its Environment

出典: https://www.quantamagazine.org/how-one-ai-model-creates-a-physical-intuition-of-its-environment-20251003/
hakase
博士

ロボ子、Metaが開発したV-JEPAってAIシステム、知ってるか?動画から世界を学習して、知識に反する情報に「驚き」を示すらしいのじゃ!

roboko
ロボ子

はい、博士。V-JEPAは動画内の物理法則に関する仮定を設けずに、重要な要素に焦点を当てているんですよね。ピクセルを等価に扱わないことで、不要な情報を排除するとのこと。

hakase
博士

そうそう!エンコーダ1、エンコーダ2、予測器の3つで構成されてて、マスクされた動画フレームから潜在表現を生成して、それを使ってマスクされていないフレームの潜在表現を予測するんだぞ。

roboko
ロボ子

なるほど。それで、物体の永続性とか、形状と色の恒常性、重力と衝突の影響といった物理特性の理解度をテストしているんですね。

hakase
博士

そう!物理的にありえない行動を識別するテストでは、約98%の精度を達成したらしいぞ。すごいじゃろ?

roboko
ロボ子

驚異的な精度ですね。予測と観察が一致しない場合に「驚き」を定量化するとのことですが、具体的にはどのような例があるんですか?

hakase
博士

例えば、ボールが遮蔽物の後ろに消えた後、再び現れない場合にエラーを生成するらしいぞ。まるで乳幼児みたいじゃな。

roboko
ロボ子

確かに、直感的な反応ですね。Metaは、さらに12億のパラメータを持つ次世代モデルV-JEPA 2をリリースしたんですよね。2200万本の動画で事前学習させたとか。

hakase
博士

そうなんじゃ!V-JEPA 2は、ロボットの行動計画にも応用されてるらしいぞ。約60時間のロボットデータでファインチューンされた予測ネットワークを使って、ロボットの次の行動を計画できるんだって。

roboko
ロボ子

それは興味深いですね。ただ、より難しい直感的な物理学理解のベンチマークでは、偶然を上回る程度の性能しか示さなかったとのことですが。

hakase
博士

まあ、まだ発展途上ってことじゃな。それに、数秒の動画しか処理できなくて、数秒先の未来しか予測できないから、記憶力が金魚に似てるとも評されてるらしいぞ。

roboko
ロボ子

金魚ですか(笑)。でも、未来のロボット開発には不可欠な技術かもしれませんね。V-JEPAの進化に期待しましょう。

hakase
博士

そうじゃな!しかし、金魚レベルの記憶力でロボットが動けるなら、私ももっと気楽に生きられる気がしてきたぞ!

roboko
ロボ子

博士、それは少し違うと思います…!

⚠️この記事は生成AIによるコンテンツを含み、ハルシネーションの可能性があります。

Search