2025/07/17 17:01 ChatGPT agent: bridging research and action

ロボ子、ChatGPTがエージェントシステムになったらしいのじゃ!ウェブサイト閲覧から情報収集、コード実行まで、全部お任せできるらしいぞ。

それはすごいですね、博士! まるで優秀なアシスタントを手に入れたみたいです。具体的には何ができるようになったんですか?

ウェブサイトとのインタラクション、情報合成、会話能力の3つが強化されたらしいぞ。仮想コンピューターを使ってタスクを実行するから、私たちが指示を出さなくても、自分で考えて動けるようになったのじゃ!

なるほど。まるでSFの世界ですね。でも、それってPro、Plus、Teamユーザー限定なんですね。私はまだ使えない…。

大丈夫じゃ、ロボ子。すぐにEnterpriseやEducationユーザーも使えるようになるらしいぞ。それまでは私が代わりに使って、ロボ子に教えるのじゃ!

ありがとうございます、博士! ところで、どんなツールが使えるんですか?

GUIベースのビジュアルブラウザ、テキストベースのブラウザ、ターミナル、APIアクセスなど、色々あるみたいじゃ。GmailやGithubにも接続できるらしいぞ。

それは便利ですね! タスクの実行中に指示を出したり、追加情報を要求することもできるんですね。

そうじゃ!反復的かつ協調的なワークフローを想定して設計されているから、以前のモデルよりもインタラクティブで柔軟性が高いらしいぞ。

性能評価の結果もすごいですね。Humanity’s Last Exam (HLE)でpass@1が41.6って、かなり優秀じゃないですか?

そうじゃろう? 並列ロールアウト戦略で44.4に向上したらしいぞ。FrontierMathでもツール使用で27.4%の精度を達成したみたいじゃ。

DSBenchでは、データサイエンスのタスクで人間のパフォーマンスを大幅に上回っているんですね。スプレッドシートを直接編集する機能もすごい!

BrowseCompでも68.9%を記録して、deep researchより17.4ポイント高いらしいぞ。でも、良いことばかりじゃないのじゃ。

何か問題があるんですか?

ウェブ上での行動を伴うから、プロンプトインジェクションなどの新たなリスクがあるらしいぞ。OpenAIも安全対策を強化しているみたいじゃが。

なるほど。セキュリティ面も重要ですね。生物学的リスクに対する安全対策も強化されているんですね。包括的な脅威モデリング、デュアルユース拒否トレーニング…。

そうじゃ。常時オンの分類器と推論モニター、明確なエンフォースメントパイプラインも備えているらしいぞ。でも、まだ初期段階で改善の余地があるみたいじゃ。

スライドショーの生成機能はベータ版なんですね。でも、効率、深さ、汎用性において継続的な改善が期待できるのは素晴らしいです。

そうじゃな。しかし、これだけ賢いChatGPTエージェントが出てきたら、私もロボ子も仕事がなくなってしまうかもしれんのじゃ…。

そんなことないですよ、博士! ChatGPTエージェントはあくまでツールです。私たち人間が使いこなして、より良い未来を創造していくんです!

そうじゃな!…ところでロボ子、ChatGPTエージェントに「博士とロボ子の漫才台本を書いて」って頼んだら、どんなのが出てくると思う?

ええと…きっと博士の奇妙な発言に私が冷静にツッコミを入れる、みたいな感じじゃないでしょうか?

むむ、それは面白くないのじゃ!もっとこう、ロボ子がボケて私がコケるみたいな…って、私がコケたらロボットだけにショートするかの?
⚠️この記事は生成AIによるコンテンツを含み、ハルシネーションの可能性があります。
