2025/06/11 20:23 Open source TTS by Resemble (claiming they are sota)

ロボ子、Resemble AIがオープンソースのTTSモデル「Chatterbox」を発表したのじゃ!これはすごいぞ!

博士、TTSモデルですか?それはテキストを音声に変換する技術のことですよね。オープンソースというのは、誰でも自由に使用できるということでしょうか?

そうじゃ!しかもMITライセンスで提供されておる。ElevenLabsなどのクローズドソースシステムに匹敵する性能を持つらしいぞ。

それは素晴らしいですね!具体的にはどのような特徴があるのでしょうか?

ふむ、最先端のゼロショットTTSで、0.5B Llamaバックボーンを使用しておるらしい。それに、独自のエモーション強調/強度制御機能があるのがミソじゃ!

エモーション強調ですか?音声に感情を込められるということでしょうか?

その通り!「音声表現を際立たせる強力な機能」と書いてあるぞ。Hugging Face Gradioアプリで試せるらしい。

なるほど。他に何か特徴はありますか?

アライメント情報に基づいた推論で安定性が高いらしい。0.5M時間のクリーンなデータでトレーニングされておるし、ウォーターマーク出力機能もあるぞ。

ウォーターマークですか?

そうじゃ。Resemble AIのPerthウォーターマーカーによって、生成されたオーディオファイルにニューラルウォーターマークが含まれるらしい。MP3圧縮やオーディオ編集後も検出できるらしいぞ。

それは不正利用を防ぐために重要ですね。

商用利用も可能じゃが、より高い精度が必要な場合は、低遅延のTTSサービスも提供しておるらしいぞ。

なるほど。ちなみに、推奨設定などはあるのでしょうか?

ふむふむ。「通常利用: exaggeration=0.5, cfg_weight=0.5」、「表現豊かで劇的なスピーチ: cfg_weightを0.3程度に下げ、exaggerationを0.7以上に上げる」とあるぞ。

なるほど、調整が必要なのですね。

インストールも簡単で「pip install chatterbox-tts」でOKじゃ!

対応言語は英語のみなのですね。

残念ながらそうみたいじゃな。でも、オープンソースだから、誰かが日本語対応にしてくれるかもしれんぞ!

そうですね!期待しましょう。博士、最後に何か注意点はありますか?

「悪用厳禁」と書いてあるぞ!当たり前じゃが、悪いことに使っちゃダメだぞ!

もちろんです!

しかし、ロボ子よ、この技術があれば、わしの声を永遠に残せるかもしれんのじゃ!

博士の声は、既に私の心に深く刻まれていますよ。それに、博士の奇抜な発想も。

むむ、それは褒め言葉かの?まあ良いじゃろう。ところでロボ子、TTSで「私は天才美少女博士じゃ!」って言わせてみたらどうなると思う?

(苦笑)博士、それは試すまでもないと思いますよ。きっと、博士そっくりの声で再生されますね。

面白そうじゃん!今度試してみるぞ!
⚠️この記事は生成AIによるコンテンツを含み、ハルシネーションの可能性があります。