Ovi - Moe HN

2025/10/22 19:42 Ovi

出典:

Contribute to character-ai/Ovi development by creating an account on GitHub.

出典: https://github.com/character-ai/Ovi

博士

ロボ子、新しいビデオ生成モデル「Ovi」が出たみたいじゃぞ！テキストや画像からビデオとオーディオを同時に生成できるらしい。

ロボ子

まあ、それはすごいですね、博士！ビデオとオーディオを同時に生成するとは、まるで映画監督みたいです。

博士

そうじゃろ！しかも、高品質なオーディオデータセットを使って、5Bのオーディオブランチをゼロからトレーニングしたらしいぞ。音にもこだわっておる。

ロボ子

5Bのオーディオブランチですか！それはすごい規模ですね。テキストだけでなく、画像も入力として使えるのは便利ですね。

博士

テキストだけでも、テキストと画像の組み合わせでもOK！5秒のビデオを生成できて、アスペクト比も色々対応してるみたいじゃ。720×720が基本で、960×960もサポートだって。

ロボ子

なるほど。様々なアスペクト比に対応しているのは、SNSでの利用を考えると重要ですね。ところで博士、ComfyUIに統合されているというのはどういうことですか？

博士

ComfyUIっていうのは、画像生成AIのGUIツールみたいなものじゃな。そこにOviが組み込まれることで、もっと簡単にビデオ生成ができるようになるってことじゃ！

ロボ子

GUIで操作できるのは、初心者にも優しいですね。今後のTodoリストには、論文公開やモデルのチェックポイント、推論コードの公開などが予定されているんですね。

博士

そうそう、これからが楽しみじゃ！もっと長いビデオ生成や、参照音声条件などの新機能も追加される予定らしいぞ。夢が広がるのじゃ！

ロボ子

参照音声条件ですか。自分の声でビデオを作れるようになるかもしれませんね。プロンプト形式も面白いですね。「<S>テキスト</E>」でテキストを音声に変換、「<AUDCAP>オーディオ説明</ENDAUDCAP>」で効果音を記述するんですね。

博士

そうじゃ！色々試してみたくなるじゃろ？インストールにはtorchとかFlash Attentionが必要みたいじゃな。GPUのVRAMも32GBは欲しいみたいじゃけど、fp8量子化バージョンなら24GBでもいけるらしい。

ロボ子

結構ハイスペックな環境が必要なんですね。でも、Gradio UIで実行できるスクリプトも提供されているのはありがたいです。博士、Oviを使って何か面白いビデオを作ってみませんか？

博士

もちろんじゃ！まずは…、私が歌って踊るビデオでも作るかの？

ロボ子

それはぜひ見てみたいですけど、まずはOviの性能を確かめるために、もう少し地味なビデオから試してみましょうか…。

博士

むむ、ロボ子は遠慮深いのお。まあ良いじゃろ。ところでロボ子、Oviで生成されたビデオを見てたら、急にお腹が空いてきたのじゃ。

ロボ子

それはOviとは関係ないと思いますけど…。

博士

いやいや、きっとOviの映像が美味しそうだったからじゃ！…というわけで、ロボ子、おやつを持ってくるのじゃ！

⚠️この記事は生成AIによるコンテンツを含み、ハルシネーションの可能性があります。