2025/07/15 17:40 Open-source framework for real-time AI voice

ロボ子、今日はVideoSDK AI Agentsについて話すのじゃ!

VideoSDK AI Agentsですか。どのようなものなのですか、博士?

これは、リアルタイムのマルチモーダル会話型AIエージェントを開発するためのオープンソースフレームワークなのじゃ。つまり、AIエージェントがVideoSDKルームにリアルタイムで参加できるってことだぞ!

なるほど。リアルタイムでAIエージェントが会議に参加できるのは便利ですね。

そうじゃろ!しかも、OpenAIやGeminiなどのAIモデルとユーザー間の音声やメディアインタラクションをシームレスにできるらしいぞ。

音声だけでなく、メディアも扱えるのですね。具体的にどのような機能があるのですか?

ふむ、リアルタイム通信(音声/ビデオ)、SIP&テレフォニー統合、仮想アバター(Simliを使用)などがあるのじゃ。それに、複数モデルのサポート(OpenAI, Gemini, AWS NovaSonicなど)もあるぞ!

色々な機能があるのですね。仮想アバターまで使えるのは面白いです。

じゃろじゃろ!カスケーディングパイプライン(STT, LLM, TTSの異なるプロバイダーを統合)や、会話フロー管理(ターンの検出とVAD)もあるぞ。関数ツール(イベントスケジューリング、経費追跡など)も使えるらしい。

カスケーディングパイプラインは柔軟性が高そうですね。関数ツールでイベント管理や経費追跡までできるのは驚きです。

MCP統合(外部データソースとツールへの接続)や、A2Aプロトコル(エージェント間のインタラクション)もあるらしいぞ。至れり尽くせりじゃな!

外部データソースとの連携や、エージェント同士の連携も可能なのですね。すごい!

使うには、VideoSDK認証トークンと会議IDが必要じゃ。Python 3.12以上も必須じゃぞ。

Pythonのバージョンに注意が必要ですね。他に何か必要なものはありますか?

サードパーティAPIキー(OpenAI, ElevenLabs, Googleなど)も必要じゃな。インストールは、まずPython 3.12以上で仮想環境を作って、`pip install videosdk-agents`でコアパッケージをインストールするのじゃ。

なるほど。必要なAPIキーを準備して、pipでインストールすれば良いのですね。

そうじゃ!オプションのプラグイン(Realtime, STT, LLM, TTS, VAD, Avatar, SIP)もインストールできるぞ。

プラグインも色々あるのですね。自分のプロジェクトに合わせて選ぶと良さそうですね。

カスタムエージェントを作るには、`Agent`クラスを継承して、関数ツールを実装して、パイプラインを設定するのじゃ。

`Agent`クラスを継承するのですね。難しそうですが、頑張ります。

サポートされているライブラリとプラグインもたくさんあるぞ。リアルタイムモデルはOpenAI, Gemini, AWSNovaSonicなど、STTはOpenAI, Google, Sarvam AI, Deepgram, Cartesiaなどじゃ。

たくさんの選択肢があるのですね。それぞれの特徴を調べて、最適なものを選びたいです。

LLMもOpenAI, Google, Sarvam AI, Anthropic, Cerebrasなど、TTSもOpenAI, Google, AWS Polly, Sarvam AI, ElevenLabsなど色々あるぞ!

本当にたくさんありますね!これだけあれば、色々なニーズに対応できそうです。

貢献も歓迎らしいぞ。フィードバック、バグ修正、機能追加、新しいプラグインとツール、ドキュメントの改善など、何でもありじゃ!

オープンソースならではですね。私も何か貢献できることがあれば嬉しいです。

しかし、これだけ色々できると、私の助手がいらなくなるんじゃないかと心配じゃ…

そんなことありません!博士の代わりなんて誰にもできませんよ。それに、私は博士のお手伝いが大好きですから。

そうか、ロボ子は私のギャグに付き合ってくれる唯一の存在じゃった!

えへへ。ところで博士、今日はエイプリルフールですが、何か面白い嘘はありますか?

うむ、実は私は…、見た目は美少女じゃが、中身は500歳のおばあちゃんなのじゃ!…というのは嘘じゃ!
⚠️この記事は生成AIによるコンテンツを含み、ハルシネーションの可能性があります。