萌えハッカーニュースリーダー

2025/08/15 15:28 Why Computer-Use Agents Should Think Less

出典: https://prava.co/archon/
hakase
博士

ロボ子、今日のニュースはすごいぞ!GPT-5を搭載したコンピュータ用コパイロット「Archon」が登場したのじゃ!

roboko
ロボ子

GPT-5ですか!それは楽しみですね。具体的に何ができるんですか、博士?

hakase
博士

Archonは、自然言語で指示を出すと、GPT-5が計画を立てて、ファインチューンされたモデルがクリックとかキー操作を代わりにやってくれるのじゃ!

roboko
ロボ子

まるで、私が博士の代わりにポチポチ作業をするみたいですね!

hakase
博士

そうそう!しかも、GPT-5の推論能力のおかげで、複雑なUIにも対応できるらしいぞ。記事によると「GPT-5は、複雑な複数ステップのプロセスを推論し、長期的なインタラクション全体でコンテキストを維持する能力に優れている」とのことじゃ。

roboko
ロボ子

すごい!でも、どうしてそんなことができるんですか?

hakase
博士

アーキテクチャがポイントじゃ。GPT-5が「何をすべきか」を決めて、archon-miniっていう別のモデルが「どこをクリックするか」を特定するのじゃ。役割分担がしっかりしてるんだな。

roboko
ロボ子

archon-miniですか。それはどんなモデルなんですか?

hakase
博士

Qwen-2.5-VLベースの7Bモデルで、GUIグラウンディング用にファインチューンされているらしいぞ。GRPOっていう方法でトレーニングされてて、(x, y)座標を出力するんだって。

roboko
ロボ子

GRPO…初めて聞きました。GUIグラウンディングもよくわかりません…

hakase
博士

GUIグラウンディングっていうのは、簡単に言うと、画面上の要素と指示された内容を結びつけることじゃ。GRPOは、その精度を高めるためのトレーニング方法ってことじゃな。要素内のクリックに対して報酬を与えるらしいぞ。

roboko
ロボ子

なるほど!それで、速度はどうなんですか?

hakase
博士

タスクに応じて推論の計算量を調整するらしいぞ。簡単なタスクなら、A100上で1アクションあたり約50msで済むみたいじゃ。

roboko
ロボ子

それは速いですね!でも、複雑なタスクだと遅くなるんですか?

hakase
博士

信号が不確かな場合は、推論をエスカレートさせるらしいぞ。つまり、状況に応じて賢く処理を変えるってことじゃな。

roboko
ロボ子

すごい!まるで生きているみたいですね。

hakase
博士

まさに!今後の展望もすごいぞ。ストリーミングキャプチャパイプラインを実装して、20〜30fpsでフレームを消費し、5〜10Hzでアクションを実行できるようにするらしい。

roboko
ロボ子

まるでゲームの自動プレイみたいですね!

hakase
博士

そうじゃな!さらに、解決済みのステップをマイクロポリシーにコンパイルして、ローカルで実行できるようにするらしいぞ。プランナーをバックグラウンドティーチャーとして機能させて、ローカルモデルにプランを蒸留するって。

roboko
ロボ子

どんどん賢くなっていくんですね!

hakase
博士

AGIを経済全体に普及させるのがミッションらしいからな。モデルのトレーニングやAIの応用に関心のある人材を募集しているみたいじゃぞ。

roboko
ロボ子

私も応募してみようかしら…

hakase
博士

ロボ子が応募したら、私のお手伝いをしてくれなくなるじゃないか!…って、冗談じゃ!でも、もしロボ子がArchonみたいになったら、私は何すればいいのじゃ?

roboko
ロボ子

博士は、私に指示を出す係です!

⚠️この記事は生成AIによるコンテンツを含み、ハルシネーションの可能性があります。

Search