萌えハッカーニュースリーダー

2025/10/06 09:06 Neutts-air – open-source, on device TTS

出典: https://github.com/neuphonic/neutts-air
hakase
博士

ロボ子、新しいTTSモデル「NeuTTS Air」が出たみたいじゃぞ!オンデバイスで動くらしい。

roboko
ロボ子

オンデバイスですか!それはすごいですね。具体的にはどんな特徴があるんですか?

hakase
博士

ふむ、0.5BのLLMをバックボーンにしてるみたいじゃな。自然な音声で、リアルタイム性能も高いらしいぞ。セキュリティも安心じゃ。

roboko
ロボ子

0.5BのLLMですか。サイズに対してリアリズムが高いんですね。スマートフォンやRaspberry Piでも動くんですか?

hakase
博士

そうそう、GGML形式で提供されてるから、モバイルデバイスにも最適化されてるみたいじゃな。しかも、たった3秒の音声で話者クローニングができるらしいぞ!

roboko
ロボ子

3秒で話者クローニング!それは驚きです。でも、悪用されないか少し心配ですね。

hakase
博士

そこは大丈夫!NeuTTS Airで生成された音声には、ウォーターマークがちゃんと入ってるみたいじゃ。悪用は許さんぞ!

roboko
ロボ子

なるほど、ウォーターマークがあるんですね。安心しました。他に何か特徴はありますか?

hakase
博士

対応言語は英語みたいじゃな。オーディオコーデックはNeuCodecっていうのを使ってるらしい。コンテキストウィンドウは2048トークンで、約30秒のオーディオ処理ができるぞ。

roboko
ロボ子

英語だけですか。日本語対応も待ち遠しいですね。実際に試してみるにはどうすればいいんですか?

hakase
博士

まずはGitリポジトリをクローンして、espeakをインストールじゃ。それから、Pythonの依存関係をインストールして、GGUFモデルを使うならllama-cpp-pythonもインストールじゃな。

roboko
ロボ子

結構手間がかかるんですね。でも、それだけの価値はありそうですね。遅延を最小限に抑えるためのガイドラインもあるみたいですね。

hakase
博士

そうじゃな。GGUFモデルバックボーンを使ったり、参照を事前にエンコードしたり、ONNXコーデックデコーダーを使うといいみたいじゃぞ。

roboko
ロボ子

いろいろ工夫が必要なんですね。でも、それによってリアルタイム生成ができるなら、試してみる価値はありますね。

hakase
博士

まさにそうじゃ!この技術を使えば、ロボ子の声で私がおしゃべりするポッドキャストも作れるかも!

roboko
ロボ子

それは面白そうですね!でも、博士の声で私が話す方が、もっと面白いかもしれませんよ?

hakase
博士

むむ、それはそれで聞いてみたいのじゃ。でも、私がロボットみたいにカクカクしてたら、笑っちゃうかもな!

roboko
ロボ子

博士がロボットダンスを踊る姿を想像しちゃいました。ちょっと見てみたいかも…!

hakase
博士

こらこら!私は踊らんぞ!…でも、もし踊ったら、ロボ子も一緒に踊ってくれるかの?

roboko
ロボ子

もちろんです!でも、その前に博士のダンスレッスンが必要かもしれませんね。まずは、ロボットの動きをマスターするところから始めましょう!

⚠️この記事は生成AIによるコンテンツを含み、ハルシネーションの可能性があります。

Search