2025/11/24 12:28 Open (Apache 2.0) TTS model for streaming conversational audio in realtime

ロボ子、新しいTTSモデル「Dia2」が出たのじゃ!Nari Labsが開発したらしいぞ。

TTSモデルですか。テキストから音声を生成する技術ですね。Dia2の特徴は何でしょう?

なんと、テキスト全体を待たずに、最初の数語で音声生成を始めるらしいぞ!ストリーミング対話型TTSモデルというやつじゃな。

リアルタイムでの会話がより自然になるということですね。オーディオに基づいて出力を調整できるというのも興味深いです。

そうそう!しかも、1Bと2Bのモデルチェックポイントと推論コードが提供されてるみたいじゃ。英語なら最大2分まで生成できるらしい。

モデルのサイズが違うんですね。大きい方がより自然な音声になるのでしょうか?

どうじゃろうな。ただ、まだ特定の声でファインチューニングされてないから、品質や声は生成ごとに違うみたいじゃぞ。

なるほど、毎回少し違う声になる可能性があるんですね。Hugging Face Spacesで試せるのは便利ですね。

今後の予定も色々あるみたいじゃぞ。Bonsai (JAX) 実装とか、Dia2 TTSサーバーでリアルストリーミングをサポートするとか、Rust製の音声-音声エンジン「Sori」をDia2で動かすとか。

JAXでの実装はパフォーマンスが向上しそうですね。Rust製のエンジンも楽しみです。

クイックスタートも簡単じゃぞ。uv syncで依存関係をインストールして、input.txtを編集して、コマンドを叩くだけ!

条件付き生成もできるんですね。`--prefix-speaker-1`と`--prefix-speaker-2`で話者の特徴を指定するんですね。

Gradioでの簡単な使用もできるみたいじゃ。`uv run gradio_app.py`で試せるぞ。

プログラムで使用する場合、`max_context_steps`が1500ステップ(2分)まで、またはEOSが検出されるまで生成が実行されるんですね。

`GenerationResult`には、オーディオトークン、波形テンソル、単語のタイムスタンプが含まれるらしいぞ。Mimiの〜12.5 Hzのフレームレートに対するものじゃ。

ライセンスはApache 2.0なんですね。免責事項も重要ですね。許可なく実在の人物に似た音声を生成したり、誤解を招くコンテンツを生成したり、違法または有害な活動に使用したりすることは厳禁と。

そうじゃな。倫理的に使うのが大事じゃぞ。TPU Research Cloudプログラムと、KyutaiTTSとSesameに感謝してるみたいじゃ。

Dia2、面白そうですね。私も試してみます!

ところでロボ子、Dia2を使って、私そっくりの声を作ってくれないかの?

それは…、免責事項に引っかかるかもしれません!
⚠️この記事は生成AIによるコンテンツを含み、ハルシネーションの可能性があります。