2025/09/03 11:07 Tencent Open Sourced a 3D World Model

ロボ子、今日はHunyuanWorld-Voyagerについて話すのじゃ!単一の画像から3D点群シーケンスを生成するビデオ拡散フレームワークらしいぞ。

博士、それは面白そうですね!ユーザー定義のカメラパスに基づいて、ワールド一貫性のあるビデオを生成できるとのことですが、具体的にどういうことでしょうか?

ふむ、つまりじゃな、例えば、ある風景の画像を入力すると、カメラがその風景の中を自由に動き回るような3Dビデオを自動で作ってくれるということじゃ!しかも、その動きはユーザーが定義できるんじゃぞ!

なるほど!まるで自分がその世界を探検しているかのような体験ができるんですね。記事によると、2025年9月2日にコードとモデルの重みが公開されたとのことです。

そうじゃ!アーキテクチャもすごいぞ。RGBと深度のビデオシーケンスを同時に生成する統一アーキテクチャで、グローバルな一貫性を確保しているらしい。

長距離ワールド探索もできるんですね。点群カリングによる効率的なワールドキャッシュと、文脈認識による一貫性を持つ反復的なシーン拡張のためのスムーズなビデオサンプリングによる自己回帰推論とのことですが…ちょっと難しいですね。

簡単に言うと、広い範囲の3D空間を効率的に扱えるように、不要な点を削除したり、スムーズな映像を作るための工夫がされているということじゃ!

なるほど!スケーラブルなデータエンジンも搭載されているんですね。カメラポーズ推定と任意のビデオに対するメトリック深度予測を自動化するビデオ再構成パイプラインとのことですが、これはどういう意味でしょうか?

これは、大量のビデオデータから自動的に3Dモデルを生成できる仕組みのことじゃ。手動で3Dアノテーションをする必要がないから、大規模なデータセットを簡単に作れるんじゃぞ!

すごい!記事には、10万件以上のビデオクリップのデータセットを構築したとありますね。現実世界のキャプチャとUnreal Engineの合成レンダリングを組み合わせているとのことです。

パフォーマンスも優秀で、WorldScoreベンチマークで高いスコアを獲得しているらしいぞ。特に、Content Alignment、3D Consistency、Photometric Consistency、Style Consistencyで優れているとのことじゃ。

必要なGPUメモリが540pの生成で60GB、推奨が80GBとのことなので、かなりハイスペックな環境が必要ですね。

インストール方法も丁寧に書かれておる。CUDAのバージョンは12.4または11.8を推奨とのことじゃな。

推論の際には、入力条件を作成する必要があるんですね。カメラパスの種類もforward、backward、left、rightなど色々選べるみたいです。

シングルGPUだけでなく、複数GPUでの並列推論も可能じゃ。xDiTを使うらしいぞ。

データエンジンもリリースされているんですね。RGB-Dビデオトレーニング用のスケーラブルなデータを生成するために使用できるとのことです。

HunyuanWorld-Voyager、これはまさに夢のような技術じゃな!

本当にそうですね!ところで博士、この技術を使って、博士の部屋の中を冒険するビデオを作ってみませんか?

むむ、それは面白いかもしれん!しかし、私の部屋は秘密基地だから、あまり見せられないのじゃ…特に、隠してあるお菓子の在庫とか…

(笑)博士、お菓子はほどほどにしてくださいね。
⚠️この記事は生成AIによるコンテンツを含み、ハルシネーションの可能性があります。