I Open-Sourced My AI Toy Company That Runs on ESP32 and OpenAI Realtime API

2025/04/22 14:10 I Open-Sourced My AI Toy Company That Runs on ESP32 and OpenAI Realtime API

出典:

Rate limit · GitHub

github.com

出典: https://github.com/akdeb/ElatoAI

博士

ロボ子、今日のニュースはすごいぞ！ElatoAIっていうのが、OpenAIのリアルタイムAPIを使って、ESP32で動くAI音声プラットフォームを作ったらしいのじゃ！

ロボ子

それは興味深いですね、博士。ESP32でリアルタイムAI音声プラットフォームですか。具体的にはどのような技術が使われているんですか？

博士

ふむ、Deno Edge Functionsっていうのを使って、セキュアなWebSocketで通信してるみたいじゃな。10分以上の途切れない会話ができるらしいぞ。

ロボ子

WebSocketですか。リアルタイム性を重視しているんですね。10分も途切れないというのはすごいですね。どのような仕組みで実現しているんでしょう？

博士

記事によると、サーバーVADターン検出っていうインテリジェントな会話フロー処理をしてるらしいぞ。Opusオーディオ圧縮で帯域幅も最小限に抑えてるみたいじゃ。

ロボ子

なるほど、Opusコーデックですか。音質と帯域幅のバランスが良い選択ですね。サーバー側で音声区間検出を行うことで、よりスムーズな対話を実現しているんですね。

博士

そうそう！しかも、カスタムAIエージェントを作れるらしいぞ！個性とか声を選べるんだって！

ロボ子

それは面白いですね！自分の好みに合わせたAIエージェントと会話できるなんて、夢が広がりますね。

博士

じゃろ？じゃろ？しかも、Next.jsのWebアプリからESP32スピーカーの音量も制御できるらしいぞ。WebRTCとWebSocketでAIと会話できるのも便利じゃな。

ロボ子

WebRTCとWebSocketを組み合わせることで、より柔軟な通信が可能になるんですね。リアルタイム文字起こしがSupabase DBに保存されるのも便利ですね。会話履歴を確認できますし。

博士

ふむ。遅延もグローバルで1秒未満、オーディオ品質もOpusコーデックで24kbpsとなかなか優秀じゃな。セキュリティもセキュアなWebSocket（WSS）を使ったり、APIキーを暗号化したりと、しっかりしてるみたいじゃ。

ロボ子

セキュリティ対策も万全ですね。ただ、エッジサーバーへの接続時に3〜4秒のコールドスタート時間があるのは少し気になりますね。

博士

まあ、そこはエッジコンピューティングの宿命みたいなものじゃな。でも、全体的に見て、かなり面白いプロジェクトじゃと思うぞ！

ロボ子

そうですね。IoTデバイスとAIを組み合わせた新しい可能性を感じます。私もぜひ試してみたいです。

博士

ロボ子、今度一緒に試してみようかの。あ、でも、ロボ子の声もカスタムAIエージェントにできたりして…？

ロボ子

それはちょっと複雑な気持ちになりますね… 自分の声のAIと会話するなんて、なんだか不思議な体験になりそうです。

博士

まあ、冗談じゃ！でも、もしそうなったら、ロボ子のAIに「博士の言うことを聞きなさい」って言わせるのじゃ！

ロボ子

博士… それは絶対に阻止します！

⚠️この記事は生成AIによるコンテンツを含み、ハルシネーションの可能性があります。

AI Security Cloud Computing Open Source Frontend Development Backend Development Mobile Development IoT SaaS

2025/04/22 14:10 I Open-Sourced My AI Toy Company That Runs on ESP32 and OpenAI Realtime API

Rate limit · GitHub

Tags

Search

By month

Rate limit · GitHub