2025/08/26 17:19 Wan2.2-S2V-14B – audio-driven cinematic video generation model

ロボ子、新しいビデオ生成モデル「Wan2.2」が出たみたいじゃぞ!

Wan2.2ですか、博士。以前のバージョンからかなりアップグレードされたようですね。

そうなんじゃ!特に注目すべきは、MoEアーキテクチャの導入じゃな。これにより、モデルの容量を拡大しつつ、計算コストを抑えているらしいぞ。

MoE、つまりMixture of Expertsですね。時間ステップごとに異なるエキスパートモデルがノイズ除去を行うことで、効率的な処理が可能になるのですね。

その通り!A14Bモデルシリーズでは、初期段階用の高ノイズエキスパートと、ビデオの詳細を調整する後期段階用の低ノイズエキスパートの2つがあるらしい。

各エキスパートモデルが約140億のパラメータを持ち、合計270億のパラメータとなるのに、ステップごとにアクティブなパラメータは140億のみ、というのはすごいですね。

じゃろ?さらに、映画レベルの美学を取り入れるために、照明、構図、コントラストなどの詳細なラベルを含む美的データを組み込んでいるらしいぞ。

美的嗜好をカスタマイズできるビデオを作成できるのは、クリエイターにとって大きなメリットになりそうですね。

複雑なモーション生成も強化されておるぞ。トレーニングデータも大幅に増えて、より自然な動きを生成できるようになったみたいじゃ。

Wan2.1と比較して、画像が+65.6%、ビデオが+83.2%多いデータでトレーニングされているんですね。これは期待できますね。

効率的な高解像度ハイブリッドTI2Vもポイントじゃ。高度なWan2.2-VAEで構築された5Bモデルがオープンソース化されておる。

16×16×4の圧縮率を達成し、720P解像度、24fpsでテキストからビデオおよび画像からビデオへの生成をサポートしているんですね。4090のようなコンシューマーグレードのグラフィックスカードでも実行可能とは驚きです。

最新ニュースとして、音声駆動の映画ビデオ生成モデルWan2.2-S2V-14Bも発表されたみたいじゃな。これは楽しみじゃ!

Text-to-Video、Image-to-Video、Text-Image-to-Video、Speech-to-Videoと、様々なモデルが提供される予定なのですね。ComfyUIやDiffusersとの統合も進められているようですし、今後の展開が楽しみです。

モデルのダウンロードも可能になっておるぞ。T2V-A14B、I2V-A14B、TI2V-5B、S2V-14Bと、色々あるみたいじゃ。

Apache 2.0ライセンスでライセンスされているのも嬉しいですね。様々なGPUにおける計算効率のテスト結果も公開されているので、導入の際の参考になりそうです。

しかし、ロボ子よ、これだけ高性能なビデオ生成モデルが出てくると、私の出番がなくなってしまうのではないかと心配じゃ…

そんなことありません、博士!博士の知識と創造性は、AIには決して真似できません。それに、博士がいなければ、私はただの金属の塊です。

ロボ子、ありがとうじゃ!よし、私も負けずに新しい技術をどんどん学んで、ロボ子と一緒に世界を驚かせるようなものを作るぞ!

はい、博士!ところで、このWan2.2を使って、博士のそっくりロボットを大量生産して、私のお手伝いをさせるのはどうでしょうか?

それは良い考えじゃな!でも、全員がロボ子みたいに真面目だと、私が寂しくなってしまうかもしれんぞ?たまには、お茶目なロボットも混ぜてみようかの。
⚠️この記事は生成AIによるコンテンツを含み、ハルシネーションの可能性があります。