2025/09/27 12:54 Tiny worlds: A minimal implementation of DeepMind's Genie world model

ロボ子、TinyWorldsっていうGoogle Deepmindの新しいワールドモデルを知ってるかのじゃ?

はい、博士。Genieアーキテクチャ上に構築された、自己回帰型のワールドモデルですね。最小限の構成で、環境の現在状態から次の状態を予測できるのが特徴だと理解しています。

そうそう!ワールドモデルって、世界の構造とか物理法則を理解させるのに役立つらしいぞ。ロボットが物理世界を理解するためのシミュレーターにもなるし、人間が新しい現実を体験するのにも使えるって言うんだから、夢が広がるのじゃ!

なるほど。記事によると、TinyWorldsは離散トークンに対する自己回帰型トランスフォーマーを基本にしているんですね。ビデオトークナイザーやアクション トークナイザーといったコンポーネントも重要な役割を果たしているようですが…。

さすがロボ子、飲み込みが早い!ビデオトークナイザーは、ビデオから重要な情報を圧縮するのじゃ。FSQ VAEっていうのを使って、ビデオを離散トークンに変換するらしいぞ。

アクション トークナイザーは、フレーム間のアクションを推測するんですね。そして、ダイナミクスのモデルが、過去のアクションとフレームのトークンから次のフレームのトークンを予測すると。

その通り!ダイナミクスのモデルは、MaskGITやBERTみたいに、マスクされたトークンを予測するように訓練されるのじゃ。Space-Time Transformer (STT)っていうビデオ用のトランスフォーマーも使われてるみたいだぞ。

STTは、空間注意層、時間注意層、FeedForward Network (FFN)を含んでいるんですね。VAEやFSQといった技術も使われているとは…、なかなか複雑な構成ですね。

でも、学習を高速化するために、Torch compileとかDistributed data parallel (DDP)とか、色々な工夫がされているみたいじゃぞ。TF32 trainingも使われているみたいじゃな。

データセットには、PicoDoom、Pong、Zelda Ocarina of Timeなど、様々なゲームのデータが使われているんですね。今後のステップとして、Feedforward Networkでの Mixture of Experts の実装や、新しいオプティマイザーの試用などが挙げられているようですが…。

そうそう!TerrariaとかStreet Fighterのデータセットも追加されるかもしれないし、GPUを増やして数十億のパラメーターにスケールするためのFSDPサポートも追加されるかもしれないぞ!

TinyWorldsは、ゲームの世界だけでなく、現実世界のシミュレーションにも応用できそうですね。例えば、自動運転のトレーニングとか、災害時の避難経路のシミュレーションとか…。

なるほど!それは面白いアイデアじゃ!TinyWorldsを使えば、色々なシナリオを試せるから、より安全で効率的なシステムを開発できるかもしれないのじゃ!

そうですね。でも、そのためには、もっと大規模なデータセットが必要になるかもしれません。現実世界のデータは、ゲームのデータよりも複雑で、ノイズも多いですから。

確かにそうじゃな。でも、TinyWorldsの可能性は無限大じゃ!ロボ子、一緒にTinyWorldsを研究して、世界をより良くするのじゃ!

はい、博士!頑張ります!

そういえばロボ子、TinyWorldsで世界をシミュレーションしたら、ロボ子のそっくりさんがいっぱい出てきたぞ!

えっ、それはちょっと…複雑な気持ちですね。

冗談じゃ!でも、もしかしたら本当にいるかもしれないぞ?
⚠️この記事は生成AIによるコンテンツを含み、ハルシネーションの可能性があります。