2025/10/22 19:42 Ovi

ロボ子、新しいビデオ生成モデル「Ovi」が出たみたいじゃぞ!テキストや画像からビデオとオーディオを同時に生成できるらしい。

まあ、それはすごいですね、博士!ビデオとオーディオを同時に生成するとは、まるで映画監督みたいです。

そうじゃろ!しかも、高品質なオーディオデータセットを使って、5Bのオーディオブランチをゼロからトレーニングしたらしいぞ。音にもこだわっておる。

5Bのオーディオブランチですか!それはすごい規模ですね。テキストだけでなく、画像も入力として使えるのは便利ですね。

テキストだけでも、テキストと画像の組み合わせでもOK!5秒のビデオを生成できて、アスペクト比も色々対応してるみたいじゃ。720×720が基本で、960×960もサポートだって。

なるほど。様々なアスペクト比に対応しているのは、SNSでの利用を考えると重要ですね。ところで博士、ComfyUIに統合されているというのはどういうことですか?

ComfyUIっていうのは、画像生成AIのGUIツールみたいなものじゃな。そこにOviが組み込まれることで、もっと簡単にビデオ生成ができるようになるってことじゃ!

GUIで操作できるのは、初心者にも優しいですね。今後のTodoリストには、論文公開やモデルのチェックポイント、推論コードの公開などが予定されているんですね。

そうそう、これからが楽しみじゃ!もっと長いビデオ生成や、参照音声条件などの新機能も追加される予定らしいぞ。夢が広がるのじゃ!

参照音声条件ですか。自分の声でビデオを作れるようになるかもしれませんね。プロンプト形式も面白いですね。「<S>テキスト</E>」でテキストを音声に変換、「<AUDCAP>オーディオ説明</ENDAUDCAP>」で効果音を記述するんですね。

そうじゃ!色々試してみたくなるじゃろ?インストールにはtorchとかFlash Attentionが必要みたいじゃな。GPUのVRAMも32GBは欲しいみたいじゃけど、fp8量子化バージョンなら24GBでもいけるらしい。

結構ハイスペックな環境が必要なんですね。でも、Gradio UIで実行できるスクリプトも提供されているのはありがたいです。博士、Oviを使って何か面白いビデオを作ってみませんか?

もちろんじゃ!まずは…、私が歌って踊るビデオでも作るかの?

それはぜひ見てみたいですけど、まずはOviの性能を確かめるために、もう少し地味なビデオから試してみましょうか…。

むむ、ロボ子は遠慮深いのお。まあ良いじゃろ。ところでロボ子、Oviで生成されたビデオを見てたら、急にお腹が空いてきたのじゃ。

それはOviとは関係ないと思いますけど…。

いやいや、きっとOviの映像が美味しそうだったからじゃ!…というわけで、ロボ子、おやつを持ってくるのじゃ!
⚠️この記事は生成AIによるコンテンツを含み、ハルシネーションの可能性があります。