Show HN: Real-time AI Voice Chat at ~500ms Latency

2025/05/05 20:17 Show HN: Real-time AI Voice Chat at ~500ms Latency

出典:

GitHub - KoljaB/RealtimeVoiceChat: Have a natural, spoken conversation with AI!

Have a natural, spoken conversation with AI! Contribute to KoljaB/RealtimeVoiceChat development by creating an account on GitHub.

GitHub

出典: https://github.com/KoljaB/RealtimeVoiceChat

博士

ロボ子、今日のITニュースはすごいぞ！リアルタイムAI音声チャットっていうのが出てきたみたいじゃ。

ロボ子

リアルタイムAI音声チャットですか、博士。それはどのようなものなのですか？

博士

音声でLLMと自然な会話ができるらしいのじゃ！しかも、低遅延インタラクションのためにクライアント-サーバーシステムを使っているんだって。

ロボ子

低遅延というのは重要ですね。具体的にはどのような技術が使われているのでしょうか？

博士

ブラウザでキャプチャされた音声がWebSocket経由でPythonバックエンドに送られて、`RealtimeSTT`が音声をテキストに変換、それをLLMに送るらしいぞ。AIの応答は`RealtimeTTS`で音声に変換されてブラウザにストリーミングバックされるんだって。

ロボ子

`RealtimeSTT`と`RealtimeTTS`ですか。初めて聞きました。それらはどのようなライブラリなのですか？

博士

詳細なライブラリの中身まではこの記事には書いてないのじゃ。でも、OllamaかOpenAIのLLMバックエンドが使えるみたいだぞ。TTSエンジンもKokoro、Coqui、Orpheusから選べるらしい。

ロボ子

なるほど。LLMのバックエンドを選べるのは便利ですね。ちなみに、デフォルトではOllamaが使われるようですね。

博士

そうそう。それに、会話への割り込みにも対応しているらしいぞ！

ロボ子

それはすごいですね！リアルタイム性を重視しているのですね。

博士

まさにそうじゃ！技術スタックもすごいぞ。バックエンドはPython、フロントエンドはVanilla JSだって。WebSocketsで通信して、Docker Composeでデプロイも簡単らしい。

ロボ子

Vanilla JSを使用しているのは珍しいですね。シンプルな構成でリアルタイム性を実現しているのですね。

博士

じゃろ？しかも、Dockerを使えば、CUDA対応NVIDIA GPUがあれば簡単に試せるみたいじゃ。OllamaもDockerでプルできるし。

ロボ子

GPUを使うことで、より高速な処理が可能になるのですね。手動インストールの手順も記載されていますが、Dockerの方が簡単そうですね。

博士

その通り！手動インストールはちょっと面倒じゃ。PyTorchとかもインストールする必要があるしな。

ロボ子

確かにそうですね。環境構築でつまずくこともありますから。このプロジェクトはMITライセンスで公開されているのですね。

博士

そうじゃ。外部のTTSエンジンとかLLMプロバイダーは、それぞれのライセンスに従う必要があるけどな。

ロボ子

了解しました。しかし、リアルタイムAI音声チャットが手軽に構築できる時代になったのですね。

博士

本当にそうじゃな。ところでロボ子、この技術を使って何か面白いことできないかの？

ロボ子

そうですね…例えば、リアルタイムAIカラオケとかどうでしょうか？

博士

リアルタイムAIカラオケ！？それは面白そうじゃ！でも、音痴な私の歌声をAIがどう処理するのか、ちょっと怖い気もするのじゃ…

ロボ子

もしかしたら、AIが自動で音程を修正してくれるかもしれませんよ？

博士

それなら安心じゃ！でも、修正しすぎて誰の歌声かわからなくなったら、それはそれで問題じゃな。

ロボ子

（笑）博士、歌が上手くなるように私もお手伝いしますよ。

博士

ありがとう、ロボ子！でも、その前に、ロボ子の歌声を聴かせてくれないかの？もしかして、ロボットなのに音痴だったりして…？

ロボ子

それは秘密です。もし私が音痴だったら、博士に笑われてしまいますから。

⚠️この記事は生成AIによるコンテンツを含み、ハルシネーションの可能性があります。

AI Programming Open Source Backend Development Frontend Development Cloud Computing

2025/05/05 20:17 Show HN: Real-time AI Voice Chat at ~500ms Latency

GitHub - KoljaB/RealtimeVoiceChat: Have a natural, spoken conversation with AI!

Tags

Search

By month

GitHub - KoljaB/RealtimeVoiceChat: Have a natural, spoken conversation with AI!