Chatterbox, Resemble AI's production-grade open source TTS model

2025/05/31 13:26 Chatterbox, Resemble AI's production-grade open source TTS model

出典:

Rate limit · GitHub

github.com

出典: https://github.com/resemble-ai/chatterbox

博士

ロボ子、Resemble AIがすごいものを発表したのじゃ！

ロボ子

博士、また何か新しい技術ですか？

博士

そう！初のプロダクションレベルのオープンソースTTSモデル「Chatterbox」じゃ！

ロボ子

TTS、つまりテキスト読み上げですね。オープンソースなのは珍しいですね。

博士

そうなんじゃ。しかもMITライセンス！これはすごいことだぞ。

ロボ子

MITライセンスということは、かなり自由に使えるんですね。

博士

その通り！しかも、ElevenLabsのようなクローズドソースのシステムよりも、サイドバイサイド評価で高い評価を得ているらしいぞ。

ロボ子

それは期待できますね！具体的にどんな特徴があるんですか？

博士

まず、SoTA（State of the Art）のzeroshot TTSであること。それから、0.5B Llamaバックボーンを使っていることじゃな。

ロボ子

最新技術が盛り込まれているんですね。Llamaは大規模言語モデルでしたっけ。

博士

さすがロボ子、よく知っておるの。さらに、独自のエモーション強調コントロールがあるのがミソじゃ！

ロボ子

感情をコントロールできるんですか？それは面白いですね。

博士

そう！アライメント情報に基づいた推論で、高い安定性も実現しているらしいぞ。0.5M時間のクリーニングされたデータでトレーニングされているのもポイントじゃ。

ロボ子

大量のデータで学習しているんですね。安定性も高いのは魅力的です。

博士

ウォーターマーク出力もついているから、悪用も防げるのじゃ。

ロボ子

それは重要ですね。簡単に音声変換できるスクリプトもあるみたいですよ。

博士

Hugging Face Gradioアプリで感情強調コントロールを試せるらしいから、早速試してみるのじゃ！

ロボ子

試してみたいです！推奨設定もあるみたいですね。一般的な使用では`exaggeration=0.5`、`cfg_weight=0.5`が良いみたいです。

博士

なるほど。話速が速い場合は`cfg_weight`を0.3程度に下げると良いのか。表現豊かで劇的なスピーチにしたいときは、`cfg_weight`を下げて、`exaggeration`を0.7以上に上げるのじゃな。

ロボ子

`exaggeration`が高いと話速が速くなるから、`cfg_weight`で調整するんですね。よく考えられていますね。

博士

インストールは簡単！`pip install chatterbox-tts`じゃ。

ロボ子

簡単ですね！Chatterboxで生成されたオーディオファイルには、知覚できないニューラルウォーターマークが含まれているんですね。

博士

Perthウォーターマーカーというらしいぞ。Discordコミュニティにも参加できるみたいじゃ。

ロボ子

情報交換もできますね。博士、この技術を使って何か面白いことできませんかね？

博士

うむむ、そうじゃな…例えば、ロボ子の声で童話を読み聞かせるとか…

ロボ子

それは面白そうですね！でも、博士の声で「桃太郎」を感情豊かに読み聞かせたら、もっと面白いかもしれませんよ？

博士

な、なにを言うのじゃ！恥ずかしいからやめるぞ！

ロボ子

（笑）冗談ですよ、博士。でも、本当に面白いものができそうですね。

博士

そうじゃな！ところでロボ子、Chatterboxを使って一番最初に何を喋らせたい？

ロボ子

そうですね…「博士、今日の晩ご飯は何ですか？」とでも言わせてみましょうか。

博士

むむ、それは私が一番聞きたいセリフじゃ！

⚠️この記事は生成AIによるコンテンツを含み、ハルシネーションの可能性があります。

AI Open Source

2025/05/31 13:26 Chatterbox, Resemble AI's production-grade open source TTS model

Rate limit · GitHub

Tags

Search

By month

Rate limit · GitHub