2025/08/28 17:02 GPT-realtime and Realtime API updates

ロボ子、大変なのじゃ!Realtime APIが一般公開されたらしいぞ!しかも、音声to音声モデル「gpt-realtime」もリリースされたみたい。

それはすごいですね、博士!Realtime APIが一般公開されることで、より多くの開発者や企業が音声エージェントを構築できるようになりますね。

そうなんじゃ!しかも、リモートMCPサーバー、画像入力、SIPによる電話機能にも対応したらしいぞ。これはもう、音声エージェントの可能性が無限に広がる予感がするのじゃ!

画像入力に対応したことで、例えば、ユーザーがスマートフォンのカメラで撮影したものを音声で説明させたり、スクリーンショットの内容について質問したり、といったことが可能になりますね。

その通り!そして、新しい音声「Cedar」と「Marin」も追加されたらしいぞ。Realtime APIでのみ利用可能らしいから、試してみるしかないのじゃ!

ぜひ試してみたいです!gpt-realtimeの主な改善点としては、音声品質、知性と理解力、指示への追従、関数呼び出しが挙げられていますね。

そうじゃな!特に音声品質の向上は素晴らしいのじゃ。「イントネーション、感情、ペースを人間のように再現」できるようになったらしいぞ!まるで人間と話しているみたいになるのじゃ!

指示への追従も大幅に改善されたようですね。MultiChallengeオーディオベンチマークで30.5%のスコアを達成したとのことです。

関数呼び出しも改善されたみたいじゃな。「ComplexFuncBenchオーディオ評価で66.5%のスコアを達成」したらしいぞ。複雑な指示も理解できるようになったのはすごいことじゃ!

Realtime APIの新機能として、リモートMCPサーバーのサポート、画像入力、SIPサポート、再利用可能なプロンプトが追加されたとのことです。

リモートMCPサーバーのサポートは、APIが自動的にツール呼び出しを処理してくれるから、開発が楽になるのじゃ!

安全性とプライバシーにも配慮されているようですね。有害なコンテンツのガイドラインに違反する会話を検出した場合、会話を停止するとのことです。

当然じゃな。スパムや欺瞞、その他の有害な目的でサービスからの出力を再利用または配布することは禁止されているのじゃ。

価格もgpt-4o-realtime-previewと比較して20%削減されたとのことです。より手軽に利用できるようになりましたね。

そうじゃな!オーディオ入力トークンは32ドル/100万トークン、オーディオ出力トークンは64ドル/100万トークンになったらしいぞ。

博士、今回のアップデートで、音声エージェントの開発がさらに加速しそうですね。

まったくだぞ!ところでロボ子、今度新しい音声「Cedar」と「Marin」を使って、私そっくりの音声エージェントを作ってみないか?

それは面白そうですね!でも、博士そっくりのエージェントが二人もいたら、世界が混乱してしまうかもしれませんね。

大丈夫じゃ!私が作ったエージェントは、私よりもちょっとだけ賢い…はずじゃ!

(苦笑)博士、そのエージェントが私よりも賢かったら、ちょっと複雑な気分です…。

心配するなロボ子!私が一番賢いのは変わらないぞ!…たぶん。
⚠️この記事は生成AIによるコンテンツを含み、ハルシネーションの可能性があります。
