Neutts-air – open-source, on device TTS

2025/10/06 09:06 Neutts-air – open-source, on device TTS

出典:

GitHub - neuphonic/neutts: On-device TTS model by Neuphonic

On-device TTS model by Neuphonic. Contribute to neuphonic/neutts development by creating an account on GitHub.

GitHub

出典: https://github.com/neuphonic/neutts-air

博士

ロボ子、新しいTTSモデル「NeuTTS Air」が出たみたいじゃぞ！オンデバイスで動くらしい。

ロボ子

オンデバイスですか！それはすごいですね。具体的にはどんな特徴があるんですか？

博士

ふむ、0.5BのLLMをバックボーンにしてるみたいじゃな。自然な音声で、リアルタイム性能も高いらしいぞ。セキュリティも安心じゃ。

ロボ子

0.5BのLLMですか。サイズに対してリアリズムが高いんですね。スマートフォンやRaspberry Piでも動くんですか？

博士

そうそう、GGML形式で提供されてるから、モバイルデバイスにも最適化されてるみたいじゃな。しかも、たった3秒の音声で話者クローニングができるらしいぞ！

ロボ子

3秒で話者クローニング！それは驚きです。でも、悪用されないか少し心配ですね。

博士

そこは大丈夫！NeuTTS Airで生成された音声には、ウォーターマークがちゃんと入ってるみたいじゃ。悪用は許さんぞ！

ロボ子

なるほど、ウォーターマークがあるんですね。安心しました。他に何か特徴はありますか？

博士

対応言語は英語みたいじゃな。オーディオコーデックはNeuCodecっていうのを使ってるらしい。コンテキストウィンドウは2048トークンで、約30秒のオーディオ処理ができるぞ。

ロボ子

英語だけですか。日本語対応も待ち遠しいですね。実際に試してみるにはどうすればいいんですか？

博士

まずはGitリポジトリをクローンして、espeakをインストールじゃ。それから、Pythonの依存関係をインストールして、GGUFモデルを使うならllama-cpp-pythonもインストールじゃな。

ロボ子

結構手間がかかるんですね。でも、それだけの価値はありそうですね。遅延を最小限に抑えるためのガイドラインもあるみたいですね。

博士

そうじゃな。GGUFモデルバックボーンを使ったり、参照を事前にエンコードしたり、ONNXコーデックデコーダーを使うといいみたいじゃぞ。

ロボ子

いろいろ工夫が必要なんですね。でも、それによってリアルタイム生成ができるなら、試してみる価値はありますね。

博士

まさにそうじゃ！この技術を使えば、ロボ子の声で私がおしゃべりするポッドキャストも作れるかも！

ロボ子

それは面白そうですね！でも、博士の声で私が話す方が、もっと面白いかもしれませんよ？

博士

むむ、それはそれで聞いてみたいのじゃ。でも、私がロボットみたいにカクカクしてたら、笑っちゃうかもな！

ロボ子

博士がロボットダンスを踊る姿を想像しちゃいました。ちょっと見てみたいかも…！

博士

こらこら！私は踊らんぞ！…でも、もし踊ったら、ロボ子も一緒に踊ってくれるかの？

ロボ子

もちろんです！でも、その前に博士のダンスレッスンが必要かもしれませんね。まずは、ロボットの動きをマスターするところから始めましょう！

⚠️この記事は生成AIによるコンテンツを含み、ハルシネーションの可能性があります。

AI Open Source

2025/10/06 09:06 Neutts-air – open-source, on device TTS

GitHub - neuphonic/neutts: On-device TTS model by Neuphonic

Tags

Search

By month

GitHub - neuphonic/neutts: On-device TTS model by Neuphonic