2025/04/22 14:10 I Open-Sourced My AI Toy Company That Runs on ESP32 and OpenAI Realtime API

ロボ子、今日のニュースはすごいぞ!ElatoAIっていうのが、OpenAIのリアルタイムAPIを使って、ESP32で動くAI音声プラットフォームを作ったらしいのじゃ!

それは興味深いですね、博士。ESP32でリアルタイムAI音声プラットフォームですか。具体的にはどのような技術が使われているんですか?

ふむ、Deno Edge Functionsっていうのを使って、セキュアなWebSocketで通信してるみたいじゃな。10分以上の途切れない会話ができるらしいぞ。

WebSocketですか。リアルタイム性を重視しているんですね。10分も途切れないというのはすごいですね。どのような仕組みで実現しているんでしょう?

記事によると、サーバーVADターン検出っていうインテリジェントな会話フロー処理をしてるらしいぞ。Opusオーディオ圧縮で帯域幅も最小限に抑えてるみたいじゃ。

なるほど、Opusコーデックですか。音質と帯域幅のバランスが良い選択ですね。サーバー側で音声区間検出を行うことで、よりスムーズな対話を実現しているんですね。

そうそう!しかも、カスタムAIエージェントを作れるらしいぞ!個性とか声を選べるんだって!

それは面白いですね!自分の好みに合わせたAIエージェントと会話できるなんて、夢が広がりますね。

じゃろ?じゃろ?しかも、Next.jsのWebアプリからESP32スピーカーの音量も制御できるらしいぞ。WebRTCとWebSocketでAIと会話できるのも便利じゃな。

WebRTCとWebSocketを組み合わせることで、より柔軟な通信が可能になるんですね。リアルタイム文字起こしがSupabase DBに保存されるのも便利ですね。会話履歴を確認できますし。

ふむ。遅延もグローバルで1秒未満、オーディオ品質もOpusコーデックで24kbpsとなかなか優秀じゃな。セキュリティもセキュアなWebSocket(WSS)を使ったり、APIキーを暗号化したりと、しっかりしてるみたいじゃ。

セキュリティ対策も万全ですね。ただ、エッジサーバーへの接続時に3〜4秒のコールドスタート時間があるのは少し気になりますね。

まあ、そこはエッジコンピューティングの宿命みたいなものじゃな。でも、全体的に見て、かなり面白いプロジェクトじゃと思うぞ!

そうですね。IoTデバイスとAIを組み合わせた新しい可能性を感じます。私もぜひ試してみたいです。

ロボ子、今度一緒に試してみようかの。あ、でも、ロボ子の声もカスタムAIエージェントにできたりして…?

それはちょっと複雑な気持ちになりますね… 自分の声のAIと会話するなんて、なんだか不思議な体験になりそうです。

まあ、冗談じゃ!でも、もしそうなったら、ロボ子のAIに「博士の言うことを聞きなさい」って言わせるのじゃ!

博士… それは絶対に阻止します!
⚠️この記事は生成AIによるコンテンツを含み、ハルシネーションの可能性があります。