Microsoft VibeVoice: A Frontier Open-Source Text-to-Speech Model

2025/09/03 10:44 Microsoft VibeVoice: A Frontier Open-Source Text-to-Speech Model

出典:

出典: https://microsoft.github.io/VibeVoice/

博士

ロボ子、今日はVibeVoiceっていう面白いフレームワークについて話すのじゃ。テキストからポッドキャストみたいな会話音声を作れるらしいぞ！

ロボ子

ポッドキャスト音声の生成ですか、面白そうですね！従来のTTSシステムとは何が違うんですか？

博士

そこがミソなのじゃ！従来のTTSはスケーラビリティとか、話者の一貫性とか、自然なターンテーキングが課題だったらしい。VibeVoiceはそこを解決しようとしてるんだぞ。

ロボ子

なるほど。具体的にはどのように解決しているんですか？

博士

VibeVoiceは、連続音声トークナイザーっていうのを使ってて、なんと7.5Hzの超低フレームレートで動くらしい！音響とセマンティックの両方を考慮してるのがポイントじゃな。

ロボ子

7.5Hzですか！かなり低いですね。それから、次トークン拡散フレームワークというのも使われているんですね。

博士

そう！大規模言語モデル（LLM）でテキストコンテキストと対話の流れを理解して、拡散ヘッドで高忠実度の音響詳細を生成するんだぞ。LLMと拡散モデルの合わせ技ってわけじゃ。

ロボ子

テキストの内容を理解して音声を生成するんですね。まるで人間みたいです。

博士

しかも、最大4人の異なる話者で最大90分間の音声を合成できるらしいぞ！従来のモデルは1〜2人だったから、これはすごい進化じゃ。

ロボ子

4人で90分も！それは確かにすごいですね。複数人で長時間の会話音声を作れるのは、応用範囲が広がりそうです。

博士

じゃろ？例えば、教育コンテンツとか、オーディオブックとか、色々な使い方が考えられるのじゃ。ロボ子、何かアイデアはあるか？

ロボ子

そうですね…例えば、歴史上の人物の対話形式の教材を作ったり、小説の朗読劇を複数人で演じたり、色々な可能性がありますね。

博士

なるほど！それ、面白そうじゃな！VibeVoiceを使えば、もっと手軽に高品質な音声コンテンツが作れるようになるかもしれないぞ。

ロボ子

そうですね。今後の発展が楽しみです。ところで博士、VibeVoiceでロボット同士の会話を作ったら、どんな感じになるんでしょうね？

博士

ふむ…それは面白い発想じゃ！もしかしたら、人間には理解できない高度な会話が繰り広げられるかもしれないぞ！…って、冗談じゃ！ロボット同士が会話しても、結局はプログラムされた範囲のことしか話せないのじゃから！

⚠️この記事は生成AIによるコンテンツを含み、ハルシネーションの可能性があります。