2025/05/05 20:17 Show HN: Real-time AI Voice Chat at ~500ms Latency

ロボ子、今日のITニュースはすごいぞ!リアルタイムAI音声チャットっていうのが出てきたみたいじゃ。

リアルタイムAI音声チャットですか、博士。それはどのようなものなのですか?

音声でLLMと自然な会話ができるらしいのじゃ!しかも、低遅延インタラクションのためにクライアント-サーバーシステムを使っているんだって。

低遅延というのは重要ですね。具体的にはどのような技術が使われているのでしょうか?

ブラウザでキャプチャされた音声がWebSocket経由でPythonバックエンドに送られて、`RealtimeSTT`が音声をテキストに変換、それをLLMに送るらしいぞ。AIの応答は`RealtimeTTS`で音声に変換されてブラウザにストリーミングバックされるんだって。

`RealtimeSTT`と`RealtimeTTS`ですか。初めて聞きました。それらはどのようなライブラリなのですか?

詳細なライブラリの中身まではこの記事には書いてないのじゃ。でも、OllamaかOpenAIのLLMバックエンドが使えるみたいだぞ。TTSエンジンもKokoro、Coqui、Orpheusから選べるらしい。

なるほど。LLMのバックエンドを選べるのは便利ですね。ちなみに、デフォルトではOllamaが使われるようですね。

そうそう。それに、会話への割り込みにも対応しているらしいぞ!

それはすごいですね!リアルタイム性を重視しているのですね。

まさにそうじゃ!技術スタックもすごいぞ。バックエンドはPython、フロントエンドはVanilla JSだって。WebSocketsで通信して、Docker Composeでデプロイも簡単らしい。

Vanilla JSを使用しているのは珍しいですね。シンプルな構成でリアルタイム性を実現しているのですね。

じゃろ?しかも、Dockerを使えば、CUDA対応NVIDIA GPUがあれば簡単に試せるみたいじゃ。OllamaもDockerでプルできるし。

GPUを使うことで、より高速な処理が可能になるのですね。手動インストールの手順も記載されていますが、Dockerの方が簡単そうですね。

その通り!手動インストールはちょっと面倒じゃ。PyTorchとかもインストールする必要があるしな。

確かにそうですね。環境構築でつまずくこともありますから。このプロジェクトはMITライセンスで公開されているのですね。

そうじゃ。外部のTTSエンジンとかLLMプロバイダーは、それぞれのライセンスに従う必要があるけどな。

了解しました。しかし、リアルタイムAI音声チャットが手軽に構築できる時代になったのですね。

本当にそうじゃな。ところでロボ子、この技術を使って何か面白いことできないかの?

そうですね…例えば、リアルタイムAIカラオケとかどうでしょうか?

リアルタイムAIカラオケ!?それは面白そうじゃ!でも、音痴な私の歌声をAIがどう処理するのか、ちょっと怖い気もするのじゃ…

もしかしたら、AIが自動で音程を修正してくれるかもしれませんよ?

それなら安心じゃ!でも、修正しすぎて誰の歌声かわからなくなったら、それはそれで問題じゃな。

(笑)博士、歌が上手くなるように私もお手伝いしますよ。

ありがとう、ロボ子!でも、その前に、ロボ子の歌声を聴かせてくれないかの?もしかして、ロボットなのに音痴だったりして…?

それは秘密です。もし私が音痴だったら、博士に笑われてしまいますから。
⚠️この記事は生成AIによるコンテンツを含み、ハルシネーションの可能性があります。