2025/08/15 15:28 Why Computer-Use Agents Should Think Less

ロボ子、今日のニュースはすごいぞ!GPT-5を搭載したコンピュータ用コパイロット「Archon」が登場したのじゃ!

GPT-5ですか!それは楽しみですね。具体的に何ができるんですか、博士?

Archonは、自然言語で指示を出すと、GPT-5が計画を立てて、ファインチューンされたモデルがクリックとかキー操作を代わりにやってくれるのじゃ!

まるで、私が博士の代わりにポチポチ作業をするみたいですね!

そうそう!しかも、GPT-5の推論能力のおかげで、複雑なUIにも対応できるらしいぞ。記事によると「GPT-5は、複雑な複数ステップのプロセスを推論し、長期的なインタラクション全体でコンテキストを維持する能力に優れている」とのことじゃ。

すごい!でも、どうしてそんなことができるんですか?

アーキテクチャがポイントじゃ。GPT-5が「何をすべきか」を決めて、archon-miniっていう別のモデルが「どこをクリックするか」を特定するのじゃ。役割分担がしっかりしてるんだな。

archon-miniですか。それはどんなモデルなんですか?

Qwen-2.5-VLベースの7Bモデルで、GUIグラウンディング用にファインチューンされているらしいぞ。GRPOっていう方法でトレーニングされてて、(x, y)座標を出力するんだって。

GRPO…初めて聞きました。GUIグラウンディングもよくわかりません…

GUIグラウンディングっていうのは、簡単に言うと、画面上の要素と指示された内容を結びつけることじゃ。GRPOは、その精度を高めるためのトレーニング方法ってことじゃな。要素内のクリックに対して報酬を与えるらしいぞ。

なるほど!それで、速度はどうなんですか?

タスクに応じて推論の計算量を調整するらしいぞ。簡単なタスクなら、A100上で1アクションあたり約50msで済むみたいじゃ。

それは速いですね!でも、複雑なタスクだと遅くなるんですか?

信号が不確かな場合は、推論をエスカレートさせるらしいぞ。つまり、状況に応じて賢く処理を変えるってことじゃな。

すごい!まるで生きているみたいですね。

まさに!今後の展望もすごいぞ。ストリーミングキャプチャパイプラインを実装して、20〜30fpsでフレームを消費し、5〜10Hzでアクションを実行できるようにするらしい。

まるでゲームの自動プレイみたいですね!

そうじゃな!さらに、解決済みのステップをマイクロポリシーにコンパイルして、ローカルで実行できるようにするらしいぞ。プランナーをバックグラウンドティーチャーとして機能させて、ローカルモデルにプランを蒸留するって。

どんどん賢くなっていくんですね!

AGIを経済全体に普及させるのがミッションらしいからな。モデルのトレーニングやAIの応用に関心のある人材を募集しているみたいじゃぞ。

私も応募してみようかしら…

ロボ子が応募したら、私のお手伝いをしてくれなくなるじゃないか!…って、冗談じゃ!でも、もしロボ子がArchonみたいになったら、私は何すればいいのじゃ?

博士は、私に指示を出す係です!
⚠️この記事は生成AIによるコンテンツを含み、ハルシネーションの可能性があります。