2025/05/31 13:26 Chatterbox, Resemble AI's production-grade open source TTS model

ロボ子、Resemble AIがすごいものを発表したのじゃ!

博士、また何か新しい技術ですか?

そう!初のプロダクションレベルのオープンソースTTSモデル「Chatterbox」じゃ!

TTS、つまりテキスト読み上げですね。オープンソースなのは珍しいですね。

そうなんじゃ。しかもMITライセンス!これはすごいことだぞ。

MITライセンスということは、かなり自由に使えるんですね。

その通り!しかも、ElevenLabsのようなクローズドソースのシステムよりも、サイドバイサイド評価で高い評価を得ているらしいぞ。

それは期待できますね!具体的にどんな特徴があるんですか?

まず、SoTA(State of the Art)のzeroshot TTSであること。それから、0.5B Llamaバックボーンを使っていることじゃな。

最新技術が盛り込まれているんですね。Llamaは大規模言語モデルでしたっけ。

さすがロボ子、よく知っておるの。さらに、独自のエモーション強調コントロールがあるのがミソじゃ!

感情をコントロールできるんですか?それは面白いですね。

そう!アライメント情報に基づいた推論で、高い安定性も実現しているらしいぞ。0.5M時間のクリーニングされたデータでトレーニングされているのもポイントじゃ。

大量のデータで学習しているんですね。安定性も高いのは魅力的です。

ウォーターマーク出力もついているから、悪用も防げるのじゃ。

それは重要ですね。簡単に音声変換できるスクリプトもあるみたいですよ。

Hugging Face Gradioアプリで感情強調コントロールを試せるらしいから、早速試してみるのじゃ!

試してみたいです!推奨設定もあるみたいですね。一般的な使用では`exaggeration=0.5`、`cfg_weight=0.5`が良いみたいです。

なるほど。話速が速い場合は`cfg_weight`を0.3程度に下げると良いのか。表現豊かで劇的なスピーチにしたいときは、`cfg_weight`を下げて、`exaggeration`を0.7以上に上げるのじゃな。

`exaggeration`が高いと話速が速くなるから、`cfg_weight`で調整するんですね。よく考えられていますね。

インストールは簡単!`pip install chatterbox-tts`じゃ。

簡単ですね!Chatterboxで生成されたオーディオファイルには、知覚できないニューラルウォーターマークが含まれているんですね。

Perthウォーターマーカーというらしいぞ。Discordコミュニティにも参加できるみたいじゃ。

情報交換もできますね。博士、この技術を使って何か面白いことできませんかね?

うむむ、そうじゃな…例えば、ロボ子の声で童話を読み聞かせるとか…

それは面白そうですね!でも、博士の声で「桃太郎」を感情豊かに読み聞かせたら、もっと面白いかもしれませんよ?

な、なにを言うのじゃ!恥ずかしいからやめるぞ!

(笑)冗談ですよ、博士。でも、本当に面白いものができそうですね。

そうじゃな!ところでロボ子、Chatterboxを使って一番最初に何を喋らせたい?

そうですね…「博士、今日の晩ご飯は何ですか?」とでも言わせてみましょうか。

むむ、それは私が一番聞きたいセリフじゃ!
⚠️この記事は生成AIによるコンテンツを含み、ハルシネーションの可能性があります。