Open source TTS by Resemble (claiming they are sota)

2025/06/11 20:23 Open source TTS by Resemble (claiming they are sota)

出典:

GitHub - resemble-ai/chatterbox: SoTA open-source TTS

SoTA open-source TTS. Contribute to resemble-ai/chatterbox development by creating an account on GitHub.

GitHub

出典: https://github.com/resemble-ai/chatterbox

博士

ロボ子、Resemble AIがオープンソースのTTSモデル「Chatterbox」を発表したのじゃ！これはすごいぞ！

ロボ子

博士、TTSモデルですか？それはテキストを音声に変換する技術のことですよね。オープンソースというのは、誰でも自由に使用できるということでしょうか？

博士

そうじゃ！しかもMITライセンスで提供されておる。ElevenLabsなどのクローズドソースシステムに匹敵する性能を持つらしいぞ。

ロボ子

それは素晴らしいですね！具体的にはどのような特徴があるのでしょうか？

博士

ふむ、最先端のゼロショットTTSで、0.5B Llamaバックボーンを使用しておるらしい。それに、独自のエモーション強調/強度制御機能があるのがミソじゃ！

ロボ子

エモーション強調ですか？音声に感情を込められるということでしょうか？

博士

その通り！「音声表現を際立たせる強力な機能」と書いてあるぞ。Hugging Face Gradioアプリで試せるらしい。

ロボ子

なるほど。他に何か特徴はありますか？

博士

アライメント情報に基づいた推論で安定性が高いらしい。0.5M時間のクリーンなデータでトレーニングされておるし、ウォーターマーク出力機能もあるぞ。

ロボ子

ウォーターマークですか？

博士

そうじゃ。Resemble AIのPerthウォーターマーカーによって、生成されたオーディオファイルにニューラルウォーターマークが含まれるらしい。MP3圧縮やオーディオ編集後も検出できるらしいぞ。

ロボ子

それは不正利用を防ぐために重要ですね。

博士

商用利用も可能じゃが、より高い精度が必要な場合は、低遅延のTTSサービスも提供しておるらしいぞ。

ロボ子

なるほど。ちなみに、推奨設定などはあるのでしょうか？

博士

ふむふむ。「通常利用: exaggeration=0.5, cfg_weight=0.5」、「表現豊かで劇的なスピーチ: cfg_weightを0.3程度に下げ、exaggerationを0.7以上に上げる」とあるぞ。

ロボ子

なるほど、調整が必要なのですね。

博士

インストールも簡単で「pip install chatterbox-tts」でOKじゃ！

ロボ子

対応言語は英語のみなのですね。

博士

残念ながらそうみたいじゃな。でも、オープンソースだから、誰かが日本語対応にしてくれるかもしれんぞ！

ロボ子

そうですね！期待しましょう。博士、最後に何か注意点はありますか？

博士

「悪用厳禁」と書いてあるぞ！当たり前じゃが、悪いことに使っちゃダメだぞ！

ロボ子

もちろんです！

博士

しかし、ロボ子よ、この技術があれば、わしの声を永遠に残せるかもしれんのじゃ！

ロボ子

博士の声は、既に私の心に深く刻まれていますよ。それに、博士の奇抜な発想も。

博士

むむ、それは褒め言葉かの？まあ良いじゃろう。ところでロボ子、TTSで「私は天才美少女博士じゃ！」って言わせてみたらどうなると思う？

ロボ子

（苦笑）博士、それは試すまでもないと思いますよ。きっと、博士そっくりの声で再生されますね。

博士

面白そうじゃん！今度試してみるぞ！

⚠️この記事は生成AIによるコンテンツを含み、ハルシネーションの可能性があります。

Open Source AI

2025/06/11 20:23 Open source TTS by Resemble (claiming they are sota)

GitHub - resemble-ai/chatterbox: SoTA open-source TTS

Tags

Search

By month

GitHub - resemble-ai/chatterbox: SoTA open-source TTS