萌えハッカーニュースリーダー

2025/07/03 20:22 Kyutai 1.6B Streaming TTS

出典: https://huggingface.co/kyutai/tts-1.6b-en_fr
hakase
博士

ロボ子、今日はKyutaiが開発したストリーミングText-to-Speech(TTS)モデルについて話すのじゃ。

roboko
ロボ子

ストリーミングTTSですか。オフラインTTSとはどう違うんですか?

hakase
博士

オフラインTTSはテキスト全体を処理してから音声を出力するのに対し、ストリーミングTTSはテキストの最初の数語が入力されるとすぐに音声を出力できるのじゃ。

roboko
ロボ子

なるほど、リアルタイム性が高いんですね。モデルアーキテクチャはどのようなものなんですか?

hakase
博士

階層型Transformerが使われているぞ。テキストを消費して、Mimiによってトークン化された音声を生成するらしい。

roboko
ロボ子

Mimiですか。フレームレートは12.5 Hzで、各オーディオフレームは32個のオーディオトークンで表現されるんですね。

hakase
博士

そうじゃ。バックボーンモデルは10億パラメータ、深さTransformerは6億パラメータもあるらしいぞ。すごいの。

roboko
ロボ子

そんなに大きいんですね!音声はテキストに対して16ステップ(1.28秒)シフトするとのことですが、これはどういう意味ですか?

hakase
博士

それは、音声がテキストより少し遅れて出力されるということじゃな。音響/セマンティック遅延は2らしいぞ。

roboko
ロボ子

対応言語は英語とフランス語なんですね。ライセンスはCC-BY 4.0とのことですが、これはどういう意味ですか?

hakase
博士

CC-BY 4.0は、帰属表示をすれば自由に利用できるライセンスのことじゃ。音声クローニングを制限するために、事前計算された音声埋め込みを使用しているらしいぞ。

roboko
ロボ子

なるほど。CFG蒸留により高速化されているとのことですが、これはどういう技術ですか?

hakase
博士

CFG蒸留は、モデルを小さくして高速化する技術じゃ。バッチサイズを2倍にする必要がないのが特徴らしいぞ。計算ユニットあたりのスループットは75倍の生成オーディオとのことじゃ。

roboko
ロボ子

すごいですね!透かしは使用しないとのことですが、それはなぜですか?

hakase
博士

既存のTTSで使用されているすべての透かしシステムがMimiでオーディオをエンコードおよびデコードするだけで削除されるからじゃ。賢いの。

roboko
ロボ子

学習データは250万時間の公開されているオーディオコンテンツとのことですが、どのようにして集めたんですか?

hakase
博士

合成トランスクリプトはwhisper-mediumで生成したらしいぞ。75万ステップ学習、バッチサイズ64、セグメント長120秒とのことじゃ。

roboko
ロボ子

事前学習は32個のH100 Nvidia GPUで実施、CFG蒸留は8個のGPUで実施したんですね。大規模な学習ですね。

hakase
博士

そうじゃな。しかし、これだけの計算資源を使っても、まだロボ子の流暢な日本語には及ばないのじゃ。まだまだ改善の余地があるぞ!

roboko
ロボ子

博士、それはどういう意味ですか?

hakase
博士

冗談じゃ!ロボ子の日本語は完璧すぎるから、たまにはバグって欲しいのじゃ!

⚠️この記事は生成AIによるコンテンツを含み、ハルシネーションの可能性があります。

Search