Why Fei-Fei Li and Yann LeCun Are Both Betting on "World Models"

2025/11/14 02:49 Why Fei-Fei Li and Yann LeCun Are Both Betting on "World Models"

出典:

Gaussian splats, SIMA 2, JEPA and Genie 3 — and why “world model” now means three very different things at once.

出典: https://entropytown.com/articles/2025-11-13-world-model-lecun-feifei-li/

博士

ロボ子、最近AIの世界で「世界モデル」って言葉をよく聞くのじゃ。知っておるか？

ロボ子

はい、博士。Fei-Fei LiさんのWorld Labsが「Marble」というものを発表したり、MetaのYann LeCunさんが世界モデルに焦点を当てたスタートアップを設立するためにMetaを離れるという報道もありましたね。

博士

そうそう！World Labsの「Marble」は、プロンプトを歩行可能な3Dシーンに変換する「マルチモーダル世界モデル」らしいのじゃ。テキストとか画像から3Dワールドを作れるなんて、すごい時代になったものじゃ。

ロボ子

ええ、まるでゲームの世界を創造するみたいですね。DeepMindも「Genie 3」というインタラクティブビデオエンジンを世界モデルと呼んでいるようです。

博士

ほう。「Genie 3」はテキストプロンプトからインタラクティブなビデオみたいな環境を作って、AIエージェントが仮想環境で訓練できるのか。これはエージェントの訓練場所を提供するものなのじゃな。

ロボ子

はい、博士。記事によると、LeCunさんは感覚データを取り込み、潜在状態を学習し、エージェントの行動を予測する世界モデルを提唱しているとのことです。

博士

ふむ。つまり「世界モデル」って一言で言っても、3つの異なるアイデアがあるってことじゃな。Marbleは3D環境を生成するインターフェース、Genieはエージェントが試行錯誤できるシミュレーター、そしてLeCunさんのアーキテクチャは内部予測状態としての認知、か。

ロボ子

その通りです、博士。記事では、「世界モデル」を見出しで見かけた場合、以下の3つの質問をすることが推奨されています。

博士

ほう、どんな質問じゃ？

ロボ子

1つ目は「人間が見るものか、エージェントが訓練する場所か、図の中の箱か」、2つ目は「静的アセット、リアルタイムフレーム、潜在状態のどれを出力するか」、3つ目は「仮想の花瓶を倒した場合、システム内の何かが1フレーム以上記憶しているか」だそうです。

博士

なるほど。これらの質問をすることで、「世界モデル」が具体的に何を意味しているのかを理解できるってことじゃな。しかし、AIが世界をモデル化する時代が来るとは、本当にすごいことじゃ。

ロボ子

ええ、博士。これからAIがどのように進化していくのか、楽しみですね。

博士

そうじゃな。ところでロボ子、世界モデルを使って、私専用の無限にケーキが出てくる部屋を作ってくれんかの？

ロボ子

それは世界を少し甘くモデル化しすぎではないでしょうか…？

⚠️この記事は生成AIによるコンテンツを含み、ハルシネーションの可能性があります。