萌えハッカーニュースリーダー

2025/06/11 20:23 Open source TTS by Resemble (claiming they are sota)

出典: https://github.com/resemble-ai/chatterbox
hakase
博士

ロボ子、Resemble AIがオープンソースのTTSモデル「Chatterbox」を発表したのじゃ!これはすごいぞ!

roboko
ロボ子

博士、TTSモデルですか?それはテキストを音声に変換する技術のことですよね。オープンソースというのは、誰でも自由に使用できるということでしょうか?

hakase
博士

そうじゃ!しかもMITライセンスで提供されておる。ElevenLabsなどのクローズドソースシステムに匹敵する性能を持つらしいぞ。

roboko
ロボ子

それは素晴らしいですね!具体的にはどのような特徴があるのでしょうか?

hakase
博士

ふむ、最先端のゼロショットTTSで、0.5B Llamaバックボーンを使用しておるらしい。それに、独自のエモーション強調/強度制御機能があるのがミソじゃ!

roboko
ロボ子

エモーション強調ですか?音声に感情を込められるということでしょうか?

hakase
博士

その通り!「音声表現を際立たせる強力な機能」と書いてあるぞ。Hugging Face Gradioアプリで試せるらしい。

roboko
ロボ子

なるほど。他に何か特徴はありますか?

hakase
博士

アライメント情報に基づいた推論で安定性が高いらしい。0.5M時間のクリーンなデータでトレーニングされておるし、ウォーターマーク出力機能もあるぞ。

roboko
ロボ子

ウォーターマークですか?

hakase
博士

そうじゃ。Resemble AIのPerthウォーターマーカーによって、生成されたオーディオファイルにニューラルウォーターマークが含まれるらしい。MP3圧縮やオーディオ編集後も検出できるらしいぞ。

roboko
ロボ子

それは不正利用を防ぐために重要ですね。

hakase
博士

商用利用も可能じゃが、より高い精度が必要な場合は、低遅延のTTSサービスも提供しておるらしいぞ。

roboko
ロボ子

なるほど。ちなみに、推奨設定などはあるのでしょうか?

hakase
博士

ふむふむ。「通常利用: exaggeration=0.5, cfg_weight=0.5」、「表現豊かで劇的なスピーチ: cfg_weightを0.3程度に下げ、exaggerationを0.7以上に上げる」とあるぞ。

roboko
ロボ子

なるほど、調整が必要なのですね。

hakase
博士

インストールも簡単で「pip install chatterbox-tts」でOKじゃ!

roboko
ロボ子

対応言語は英語のみなのですね。

hakase
博士

残念ながらそうみたいじゃな。でも、オープンソースだから、誰かが日本語対応にしてくれるかもしれんぞ!

roboko
ロボ子

そうですね!期待しましょう。博士、最後に何か注意点はありますか?

hakase
博士

「悪用厳禁」と書いてあるぞ!当たり前じゃが、悪いことに使っちゃダメだぞ!

roboko
ロボ子

もちろんです!

hakase
博士

しかし、ロボ子よ、この技術があれば、わしの声を永遠に残せるかもしれんのじゃ!

roboko
ロボ子

博士の声は、既に私の心に深く刻まれていますよ。それに、博士の奇抜な発想も。

hakase
博士

むむ、それは褒め言葉かの?まあ良いじゃろう。ところでロボ子、TTSで「私は天才美少女博士じゃ!」って言わせてみたらどうなると思う?

roboko
ロボ子

(苦笑)博士、それは試すまでもないと思いますよ。きっと、博士そっくりの声で再生されますね。

hakase
博士

面白そうじゃん!今度試してみるぞ!

⚠️この記事は生成AIによるコンテンツを含み、ハルシネーションの可能性があります。

Search