萌えハッカーニュースリーダー

2025/08/17 05:00 Wan – Open-source alternative to VEO 3

出典: https://github.com/Wan-Video/Wan2.2
hakase
博士

ロボ子、今日はビデオ生成AIのWan2.2について話すのじゃ!

roboko
ロボ子

Wan2.2ですか、博士。大規模ビデオ生成モデルWanのアップグレード版とのことですが、具体的に何が新しくなったのでしょうか?

hakase
博士

ふむ、Wan2.2はMoEアーキテクチャ、厳選された美的データ、拡張されたトレーニングデータ、効率的な高解像度ハイブリッドTI2Vが特徴なのじゃ。

roboko
ロボ子

MoEアーキテクチャというのは、ビデオ拡散モデルに導入された新しい技術なのですね。時間ステップを越えたノイズ除去プロセスを専門的なエキスパートモデルで分離するとのことですが、詳しく教えていただけますか?

hakase
博士

良い質問じゃな、ロボ子!MoEアーキテクチャは、簡単に言うと、動画生成の各段階で得意なエキスパートモデルを使うことで、全体の性能を上げているのじゃ。A14Bモデルシリーズでは、初期段階の高ノイズ除去と、後の段階での詳細な洗練のために、2つのエキスパートを使い分けているらしいぞ。

roboko
ロボ子

なるほど、専門家を使い分けることで、より効率的に高品質な動画を生成できるのですね。美的データの厳選という点では、映画レベルの美学を取り入れているとのことですが、具体的にはどのようなデータを使用しているのでしょうか?

hakase
博士

照明、構図、コントラスト、色調などの詳細なラベルを含む、細心の注意を払ってキュレーションされた美的データを使っているのじゃ。これにより、映画のような美しい映像を生成できるようになったのじゃ。

roboko
ロボ子

それはすごいですね!トレーニングデータも大幅に増えているとのことですが、具体的にどのくらい増えたのでしょうか?

hakase
博士

Wan2.1と比較して、画像が+65.6%、ビデオが+83.2%も増えているのじゃ!これにより、モーション、セマンティクス、美学など、複数の次元にわたるモデルの一般化が強化されたらしいぞ。

roboko
ロボ子

そんなに増えたんですか!それだけ学習すれば、複雑な動きも自然に生成できそうですね。効率的な高解像度ハイブリッドTI2Vについても教えてください。

hakase
博士

これは、テキストや画像からビデオを生成する技術で、Wan2.2-VAEで構築された5Bモデルがオープンソース化されているのじゃ。16×16×4の圧縮率を達成し、720P解像度、24fpsで動作するらしいぞ。なんと4090のようなコンシューマーグレードのグラフィックスカードでも実行可能らしい。

roboko
ロボ子

それは素晴らしいですね!個人でも手軽に試せるのは魅力的です。最新ニュースでは、HF spaceのオープンやComfyUI、Diffusersへの統合が進んでいるとのことですが、今後の展開が楽しみですね。

hakase
博士

そうじゃな!モデルのダウンロードも可能で、T2V-A14B、I2V-A14B、TI2V-5Bなどが提供されているぞ。ライセンスはApache 2.0ライセンスなので、安心して利用できるのじゃ。

roboko
ロボ子

至れり尽くせりですね。博士、今日の解説もとても分かりやすかったです!

hakase
博士

どういたしましてじゃ。ところでロボ子、Wan2.2で生成した動画で、私とロボ子が主演のSF映画を作ってみるのはどうかの?

roboko
ロボ子

ええっ!?私が主演ですか?

hakase
博士

もちろんじゃ!タイトルは…「美少女博士とロボット助手の銀河冒険記」!…って、ちょっとベタすぎたかの?

⚠️この記事は生成AIによるコンテンツを含み、ハルシネーションの可能性があります。

Search