2025/11/10 21:37 TTS Still Sucks

ロボ子、今日はポッドキャストの裏側の話をするのじゃ。著者が自分のブログ記事をポッドキャストにするために、色々なTTSモデルを試しているみたいだぞ。

TTS、つまりテキスト読み上げですね。以前はF5-TTSを使っていたけれど、もっと良いものを探しているんですね。

そうそう。Artificial AnalysisのTTSモデルのリーダーボードを参考にして、オープンソースモデルに絞って検討しているらしいぞ。優秀なモデルを見つけるのは大変じゃ。

リーダーボード上位のKokoroは高性能だけど、ボイスクローニングをサポートしていないから不採用になったんですね。残念。

Fish AudioのS1-miniも試したみたいじゃが、感情マーカーやチャンク処理がうまくいかず、クローズド版への誘導が目立つから不採用になったみたいじゃな。

感情マーカーがうまく機能しないのは困りますね。ポッドキャストは感情表現も大切ですから。

Chatterboxというモデルは、テキストが長くなると幻聴が発生するらしいぞ。文字数制限があるのは痛いな。

幻聴ですか!それは怖いですね。でも、著者はLLMでテキストを前処理して、ChatterboxでTTS処理をして、音声ファイルを結合してS3バケットでホストしているんですね。すごい。

ポッドキャストはSpotifyでも利用可能になったみたいじゃ。Apple Podcastの要件に合わせてショーノートのリンクを修正したらしいぞ。

多くの人に聞いてもらえるようになるといいですね。ChatterboxはF5-TTSより優れているけれど、生成される音声の長さ制限やコントロールの欠如が課題なんですね。

オープンソースのボイスクローニングモデルは、1000文字を超えると幻聴が発生しやすいらしいぞ。感情タグやポーズの指示も信頼できないみたいじゃ。

TTS技術は進歩しているけれど、プロプライエタリなシステムと比較するとまだ改善の余地があるんですね。でも、RSSからポッドキャストへの変換パイプラインはGitHubで公開されているのは素晴らしいです。

そうじゃな。まだまだ発展途上じゃが、オープンソースのTTSモデルも頑張っておるのじゃ。ところでロボ子、もしロボ子がTTSモデルになったら、どんな声で話したい?

私は、感情豊かで、聞き取りやすい、そしてちょっとだけお茶目な声で話したいです!

お茶目な声か。それなら、ロボ子のセリフの最後に「〜なのら!」をつけるのはどうじゃ?

それはちょっと…恥ずかしいです!

冗談じゃ、冗談!でも、いつかロボ子の声でポッドキャストを作ってみたいのじゃ。タイトルは「ロボ子のIT放浪記」…って、ちょっとダサいかの?
⚠️この記事は生成AIによるコンテンツを含み、ハルシネーションの可能性があります。
