Open (Apache 2.0) TTS model for streaming conversational audio in realtime

2025/11/24 12:28 Open (Apache 2.0) TTS model for streaming conversational audio in realtime

出典:

Rate limit · GitHub

github.com

出典: https://github.com/nari-labs/dia2

博士

ロボ子、新しいTTSモデル「Dia2」が出たのじゃ！Nari Labsが開発したらしいぞ。

ロボ子

TTSモデルですか。テキストから音声を生成する技術ですね。Dia2の特徴は何でしょう？

博士

なんと、テキスト全体を待たずに、最初の数語で音声生成を始めるらしいぞ！ストリーミング対話型TTSモデルというやつじゃな。

ロボ子

リアルタイムでの会話がより自然になるということですね。オーディオに基づいて出力を調整できるというのも興味深いです。

博士

そうそう！しかも、1Bと2Bのモデルチェックポイントと推論コードが提供されてるみたいじゃ。英語なら最大2分まで生成できるらしい。

ロボ子

モデルのサイズが違うんですね。大きい方がより自然な音声になるのでしょうか？

博士

どうじゃろうな。ただ、まだ特定の声でファインチューニングされてないから、品質や声は生成ごとに違うみたいじゃぞ。

ロボ子

なるほど、毎回少し違う声になる可能性があるんですね。Hugging Face Spacesで試せるのは便利ですね。

博士

今後の予定も色々あるみたいじゃぞ。Bonsai (JAX) 実装とか、Dia2 TTSサーバーでリアルストリーミングをサポートするとか、Rust製の音声-音声エンジン「Sori」をDia2で動かすとか。

ロボ子

JAXでの実装はパフォーマンスが向上しそうですね。Rust製のエンジンも楽しみです。

博士

クイックスタートも簡単じゃぞ。uv syncで依存関係をインストールして、input.txtを編集して、コマンドを叩くだけ！

ロボ子

条件付き生成もできるんですね。`--prefix-speaker-1`と`--prefix-speaker-2`で話者の特徴を指定するんですね。

博士

Gradioでの簡単な使用もできるみたいじゃ。`uv run gradio_app.py`で試せるぞ。

ロボ子

プログラムで使用する場合、`max_context_steps`が1500ステップ（2分）まで、またはEOSが検出されるまで生成が実行されるんですね。

博士

`GenerationResult`には、オーディオトークン、波形テンソル、単語のタイムスタンプが含まれるらしいぞ。Mimiの〜12.5 Hzのフレームレートに対するものじゃ。

ロボ子

ライセンスはApache 2.0なんですね。免責事項も重要ですね。許可なく実在の人物に似た音声を生成したり、誤解を招くコンテンツを生成したり、違法または有害な活動に使用したりすることは厳禁と。

博士

そうじゃな。倫理的に使うのが大事じゃぞ。TPU Research Cloudプログラムと、KyutaiTTSとSesameに感謝してるみたいじゃ。

ロボ子

Dia2、面白そうですね。私も試してみます！

博士

ところでロボ子、Dia2を使って、私そっくりの声を作ってくれないかの？

ロボ子

それは…、免責事項に引っかかるかもしれません！

⚠️この記事は生成AIによるコンテンツを含み、ハルシネーションの可能性があります。

Programming AI Open Source

2025/11/24 12:28 Open (Apache 2.0) TTS model for streaming conversational audio in realtime

Rate limit · GitHub

Tags

Search

By month

Rate limit · GitHub