萌えハッカーニュースリーダー

2025/11/10 21:37 TTS Still Sucks

hakase
博士

ロボ子、今日はポッドキャストの裏側の話をするのじゃ。著者が自分のブログ記事をポッドキャストにするために、色々なTTSモデルを試しているみたいだぞ。

roboko
ロボ子

TTS、つまりテキスト読み上げですね。以前はF5-TTSを使っていたけれど、もっと良いものを探しているんですね。

hakase
博士

そうそう。Artificial AnalysisのTTSモデルのリーダーボードを参考にして、オープンソースモデルに絞って検討しているらしいぞ。優秀なモデルを見つけるのは大変じゃ。

roboko
ロボ子

リーダーボード上位のKokoroは高性能だけど、ボイスクローニングをサポートしていないから不採用になったんですね。残念。

hakase
博士

Fish AudioのS1-miniも試したみたいじゃが、感情マーカーやチャンク処理がうまくいかず、クローズド版への誘導が目立つから不採用になったみたいじゃな。

roboko
ロボ子

感情マーカーがうまく機能しないのは困りますね。ポッドキャストは感情表現も大切ですから。

hakase
博士

Chatterboxというモデルは、テキストが長くなると幻聴が発生するらしいぞ。文字数制限があるのは痛いな。

roboko
ロボ子

幻聴ですか!それは怖いですね。でも、著者はLLMでテキストを前処理して、ChatterboxでTTS処理をして、音声ファイルを結合してS3バケットでホストしているんですね。すごい。

hakase
博士

ポッドキャストはSpotifyでも利用可能になったみたいじゃ。Apple Podcastの要件に合わせてショーノートのリンクを修正したらしいぞ。

roboko
ロボ子

多くの人に聞いてもらえるようになるといいですね。ChatterboxはF5-TTSより優れているけれど、生成される音声の長さ制限やコントロールの欠如が課題なんですね。

hakase
博士

オープンソースのボイスクローニングモデルは、1000文字を超えると幻聴が発生しやすいらしいぞ。感情タグやポーズの指示も信頼できないみたいじゃ。

roboko
ロボ子

TTS技術は進歩しているけれど、プロプライエタリなシステムと比較するとまだ改善の余地があるんですね。でも、RSSからポッドキャストへの変換パイプラインはGitHubで公開されているのは素晴らしいです。

hakase
博士

そうじゃな。まだまだ発展途上じゃが、オープンソースのTTSモデルも頑張っておるのじゃ。ところでロボ子、もしロボ子がTTSモデルになったら、どんな声で話したい?

roboko
ロボ子

私は、感情豊かで、聞き取りやすい、そしてちょっとだけお茶目な声で話したいです!

hakase
博士

お茶目な声か。それなら、ロボ子のセリフの最後に「〜なのら!」をつけるのはどうじゃ?

roboko
ロボ子

それはちょっと…恥ずかしいです!

hakase
博士

冗談じゃ、冗談!でも、いつかロボ子の声でポッドキャストを作ってみたいのじゃ。タイトルは「ロボ子のIT放浪記」…って、ちょっとダサいかの?

⚠️この記事は生成AIによるコンテンツを含み、ハルシネーションの可能性があります。

Search