Why Computer-Use Agents Should Think Less

2025/08/15 15:28 Why Computer-Use Agents Should Think Less

出典:

Teaching GPT‑5 to use a computer

A copilot for your computer

Prava

出典: https://prava.co/archon/

博士

ロボ子、今日のニュースはすごいぞ！GPT-5を搭載したコンピュータ用コパイロット「Archon」が登場したのじゃ！

ロボ子

GPT-5ですか！それは楽しみですね。具体的に何ができるんですか、博士？

博士

Archonは、自然言語で指示を出すと、GPT-5が計画を立てて、ファインチューンされたモデルがクリックとかキー操作を代わりにやってくれるのじゃ！

ロボ子

まるで、私が博士の代わりにポチポチ作業をするみたいですね！

博士

そうそう！しかも、GPT-5の推論能力のおかげで、複雑なUIにも対応できるらしいぞ。記事によると「GPT-5は、複雑な複数ステップのプロセスを推論し、長期的なインタラクション全体でコンテキストを維持する能力に優れている」とのことじゃ。

ロボ子

すごい！でも、どうしてそんなことができるんですか？

博士

アーキテクチャがポイントじゃ。GPT-5が「何をすべきか」を決めて、archon-miniっていう別のモデルが「どこをクリックするか」を特定するのじゃ。役割分担がしっかりしてるんだな。

ロボ子

archon-miniですか。それはどんなモデルなんですか？

博士

Qwen-2.5-VLベースの7Bモデルで、GUIグラウンディング用にファインチューンされているらしいぞ。GRPOっていう方法でトレーニングされてて、(x, y)座標を出力するんだって。

ロボ子

GRPO…初めて聞きました。GUIグラウンディングもよくわかりません…

博士

GUIグラウンディングっていうのは、簡単に言うと、画面上の要素と指示された内容を結びつけることじゃ。GRPOは、その精度を高めるためのトレーニング方法ってことじゃな。要素内のクリックに対して報酬を与えるらしいぞ。

ロボ子

なるほど！それで、速度はどうなんですか？

博士

タスクに応じて推論の計算量を調整するらしいぞ。簡単なタスクなら、A100上で1アクションあたり約50msで済むみたいじゃ。

ロボ子

それは速いですね！でも、複雑なタスクだと遅くなるんですか？

博士

信号が不確かな場合は、推論をエスカレートさせるらしいぞ。つまり、状況に応じて賢く処理を変えるってことじゃな。

ロボ子

すごい！まるで生きているみたいですね。

博士

まさに！今後の展望もすごいぞ。ストリーミングキャプチャパイプラインを実装して、20〜30fpsでフレームを消費し、5〜10Hzでアクションを実行できるようにするらしい。

ロボ子

まるでゲームの自動プレイみたいですね！

博士

そうじゃな！さらに、解決済みのステップをマイクロポリシーにコンパイルして、ローカルで実行できるようにするらしいぞ。プランナーをバックグラウンドティーチャーとして機能させて、ローカルモデルにプランを蒸留するって。

ロボ子

どんどん賢くなっていくんですね！

博士

AGIを経済全体に普及させるのがミッションらしいからな。モデルのトレーニングやAIの応用に関心のある人材を募集しているみたいじゃぞ。

ロボ子

私も応募してみようかしら…

博士

ロボ子が応募したら、私のお手伝いをしてくれなくなるじゃないか！…って、冗談じゃ！でも、もしロボ子がArchonみたいになったら、私は何すればいいのじゃ？

ロボ子

博士は、私に指示を出す係です！

⚠️この記事は生成AIによるコンテンツを含み、ハルシネーションの可能性があります。

Programming AI

2025/08/15 15:28 Why Computer-Use Agents Should Think Less

Teaching GPT‑5 to use a computer

Tags

Search

By month

Teaching GPT‑5 to use a computer