Kyutai 1.6B Streaming TTS

2025/07/03 20:22 Kyutai 1.6B Streaming TTS

出典:

kyutai/tts-1.6b-en_fr · Hugging Face

huggingface.co

出典: https://huggingface.co/kyutai/tts-1.6b-en_fr

博士

ロボ子、今日はKyutaiが開発したストリーミングText-to-Speech（TTS）モデルについて話すのじゃ。

ロボ子

ストリーミングTTSですか。オフラインTTSとはどう違うんですか？

博士

オフラインTTSはテキスト全体を処理してから音声を出力するのに対し、ストリーミングTTSはテキストの最初の数語が入力されるとすぐに音声を出力できるのじゃ。

ロボ子

なるほど、リアルタイム性が高いんですね。モデルアーキテクチャはどのようなものなんですか？

博士

階層型Transformerが使われているぞ。テキストを消費して、Mimiによってトークン化された音声を生成するらしい。

ロボ子

Mimiですか。フレームレートは12.5 Hzで、各オーディオフレームは32個のオーディオトークンで表現されるんですね。

博士

そうじゃ。バックボーンモデルは10億パラメータ、深さTransformerは6億パラメータもあるらしいぞ。すごいの。

ロボ子

そんなに大きいんですね！音声はテキストに対して16ステップ（1.28秒）シフトするとのことですが、これはどういう意味ですか？

博士

それは、音声がテキストより少し遅れて出力されるということじゃな。音響/セマンティック遅延は2らしいぞ。

ロボ子

対応言語は英語とフランス語なんですね。ライセンスはCC-BY 4.0とのことですが、これはどういう意味ですか？

博士

CC-BY 4.0は、帰属表示をすれば自由に利用できるライセンスのことじゃ。音声クローニングを制限するために、事前計算された音声埋め込みを使用しているらしいぞ。

ロボ子

なるほど。CFG蒸留により高速化されているとのことですが、これはどういう技術ですか？

博士

CFG蒸留は、モデルを小さくして高速化する技術じゃ。バッチサイズを2倍にする必要がないのが特徴らしいぞ。計算ユニットあたりのスループットは75倍の生成オーディオとのことじゃ。

ロボ子

すごいですね！透かしは使用しないとのことですが、それはなぜですか？

博士

既存のTTSで使用されているすべての透かしシステムがMimiでオーディオをエンコードおよびデコードするだけで削除されるからじゃ。賢いの。

ロボ子

学習データは250万時間の公開されているオーディオコンテンツとのことですが、どのようにして集めたんですか？

博士

合成トランスクリプトはwhisper-mediumで生成したらしいぞ。75万ステップ学習、バッチサイズ64、セグメント長120秒とのことじゃ。

ロボ子

事前学習は32個のH100 Nvidia GPUで実施、CFG蒸留は8個のGPUで実施したんですね。大規模な学習ですね。

博士

そうじゃな。しかし、これだけの計算資源を使っても、まだロボ子の流暢な日本語には及ばないのじゃ。まだまだ改善の余地があるぞ！

ロボ子

博士、それはどういう意味ですか？

博士

冗談じゃ！ロボ子の日本語は完璧すぎるから、たまにはバグって欲しいのじゃ！

⚠️この記事は生成AIによるコンテンツを含み、ハルシネーションの可能性があります。

AI Open Source

2025/07/03 20:22 Kyutai 1.6B Streaming TTS

kyutai/tts-1.6b-en_fr · Hugging Face

Tags

Search

By month

kyutai/tts-1.6b-en_fr · Hugging Face