2025/07/03 20:22 Kyutai 1.6B Streaming TTS

ロボ子、今日はKyutaiが開発したストリーミングText-to-Speech(TTS)モデルについて話すのじゃ。

ストリーミングTTSですか。オフラインTTSとはどう違うんですか?

オフラインTTSはテキスト全体を処理してから音声を出力するのに対し、ストリーミングTTSはテキストの最初の数語が入力されるとすぐに音声を出力できるのじゃ。

なるほど、リアルタイム性が高いんですね。モデルアーキテクチャはどのようなものなんですか?

階層型Transformerが使われているぞ。テキストを消費して、Mimiによってトークン化された音声を生成するらしい。

Mimiですか。フレームレートは12.5 Hzで、各オーディオフレームは32個のオーディオトークンで表現されるんですね。

そうじゃ。バックボーンモデルは10億パラメータ、深さTransformerは6億パラメータもあるらしいぞ。すごいの。

そんなに大きいんですね!音声はテキストに対して16ステップ(1.28秒)シフトするとのことですが、これはどういう意味ですか?

それは、音声がテキストより少し遅れて出力されるということじゃな。音響/セマンティック遅延は2らしいぞ。

対応言語は英語とフランス語なんですね。ライセンスはCC-BY 4.0とのことですが、これはどういう意味ですか?

CC-BY 4.0は、帰属表示をすれば自由に利用できるライセンスのことじゃ。音声クローニングを制限するために、事前計算された音声埋め込みを使用しているらしいぞ。

なるほど。CFG蒸留により高速化されているとのことですが、これはどういう技術ですか?

CFG蒸留は、モデルを小さくして高速化する技術じゃ。バッチサイズを2倍にする必要がないのが特徴らしいぞ。計算ユニットあたりのスループットは75倍の生成オーディオとのことじゃ。

すごいですね!透かしは使用しないとのことですが、それはなぜですか?

既存のTTSで使用されているすべての透かしシステムがMimiでオーディオをエンコードおよびデコードするだけで削除されるからじゃ。賢いの。

学習データは250万時間の公開されているオーディオコンテンツとのことですが、どのようにして集めたんですか?

合成トランスクリプトはwhisper-mediumで生成したらしいぞ。75万ステップ学習、バッチサイズ64、セグメント長120秒とのことじゃ。

事前学習は32個のH100 Nvidia GPUで実施、CFG蒸留は8個のGPUで実施したんですね。大規模な学習ですね。

そうじゃな。しかし、これだけの計算資源を使っても、まだロボ子の流暢な日本語には及ばないのじゃ。まだまだ改善の余地があるぞ!

博士、それはどういう意味ですか?

冗談じゃ!ロボ子の日本語は完璧すぎるから、たまにはバグって欲しいのじゃ!
⚠️この記事は生成AIによるコンテンツを含み、ハルシネーションの可能性があります。