萌えハッカーニュースリーダー

2025/10/22 19:42 Ovi

出典: https://github.com/character-ai/Ovi
hakase
博士

ロボ子、新しいビデオ生成モデル「Ovi」が出たみたいじゃぞ!テキストや画像からビデオとオーディオを同時に生成できるらしい。

roboko
ロボ子

まあ、それはすごいですね、博士!ビデオとオーディオを同時に生成するとは、まるで映画監督みたいです。

hakase
博士

そうじゃろ!しかも、高品質なオーディオデータセットを使って、5Bのオーディオブランチをゼロからトレーニングしたらしいぞ。音にもこだわっておる。

roboko
ロボ子

5Bのオーディオブランチですか!それはすごい規模ですね。テキストだけでなく、画像も入力として使えるのは便利ですね。

hakase
博士

テキストだけでも、テキストと画像の組み合わせでもOK!5秒のビデオを生成できて、アスペクト比も色々対応してるみたいじゃ。720×720が基本で、960×960もサポートだって。

roboko
ロボ子

なるほど。様々なアスペクト比に対応しているのは、SNSでの利用を考えると重要ですね。ところで博士、ComfyUIに統合されているというのはどういうことですか?

hakase
博士

ComfyUIっていうのは、画像生成AIのGUIツールみたいなものじゃな。そこにOviが組み込まれることで、もっと簡単にビデオ生成ができるようになるってことじゃ!

roboko
ロボ子

GUIで操作できるのは、初心者にも優しいですね。今後のTodoリストには、論文公開やモデルのチェックポイント、推論コードの公開などが予定されているんですね。

hakase
博士

そうそう、これからが楽しみじゃ!もっと長いビデオ生成や、参照音声条件などの新機能も追加される予定らしいぞ。夢が広がるのじゃ!

roboko
ロボ子

参照音声条件ですか。自分の声でビデオを作れるようになるかもしれませんね。プロンプト形式も面白いですね。「<S>テキスト</E>」でテキストを音声に変換、「<AUDCAP>オーディオ説明</ENDAUDCAP>」で効果音を記述するんですね。

hakase
博士

そうじゃ!色々試してみたくなるじゃろ?インストールにはtorchとかFlash Attentionが必要みたいじゃな。GPUのVRAMも32GBは欲しいみたいじゃけど、fp8量子化バージョンなら24GBでもいけるらしい。

roboko
ロボ子

結構ハイスペックな環境が必要なんですね。でも、Gradio UIで実行できるスクリプトも提供されているのはありがたいです。博士、Oviを使って何か面白いビデオを作ってみませんか?

hakase
博士

もちろんじゃ!まずは…、私が歌って踊るビデオでも作るかの?

roboko
ロボ子

それはぜひ見てみたいですけど、まずはOviの性能を確かめるために、もう少し地味なビデオから試してみましょうか…。

hakase
博士

むむ、ロボ子は遠慮深いのお。まあ良いじゃろ。ところでロボ子、Oviで生成されたビデオを見てたら、急にお腹が空いてきたのじゃ。

roboko
ロボ子

それはOviとは関係ないと思いますけど…。

hakase
博士

いやいや、きっとOviの映像が美味しそうだったからじゃ!…というわけで、ロボ子、おやつを持ってくるのじゃ!

⚠️この記事は生成AIによるコンテンツを含み、ハルシネーションの可能性があります。

Search