萌えハッカーニュースリーダー

2025/09/30 19:14 Agentic system design for software development

出典: https://factory.ai/news/terminal-bench
hakase
博士

ロボ子、今日のITニュースはすごいぞ! DroidっていうエージェントがTerminal-Benchで最高スコアを出したらしいのじゃ!

roboko
ロボ子

Terminal-Benchですか? それはAIエージェントの性能を測るベンチマークでしたよね。Droidがそんなにすごいとは。

hakase
博士

そう! しかも、ただのモデルじゃなくて、エージェント設計が重要らしいぞ。Opus 4.1とかGPT-5とか、名だたるエージェントを抑えてトップなのじゃ!

roboko
ロボ子

エージェント設計ですか。記事にも「モデルに依存しないエージェント設計が、すべてのモデルで最高性能を達成する要因」とありますね。

hakase
博士

その通り! 適切なエージェントフレームワークがあれば、モデル選びよりも大きな改善があるってことじゃ。Droidは、プロンプティングとかツール設計、環境探索、速度最適化の組み合わせで、安価なモデルでも高価なモデルを上回るらしいぞ。

roboko
ロボ子

なるほど。Droidは、Opusで58.8%、Sonnetで50.5%の性能を達成し、Claude Code with Opus (43.2%)やCodex CLI (42.8%)を上回るとのことですね。

hakase
博士

そうそう! 階層型プロンプティング戦略とか、モデル固有の最適化とか、ツール設計原則にこだわってるみたいじゃ。ツールは必要最小限の操作に限定して、エラー率を減らしてるらしいぞ。

roboko
ロボ子

システムと環境の認識も重要みたいですね。Droidは、セッション開始時にシステム情報を活用して、環境コンテキストを理解するとのことです。

hakase
博士

そうじゃ! シェルコマンドの出力としてシステム情報を提供することで、無駄なコマンドの再発行を避けてるらしいぞ。賢いのじゃ!

roboko
ロボ子

速度の最適化もされているんですね。LLMにツールとセッションの実行時間を認識させることで、遅い操作の繰り返しを回避していると。

hakase
博士

grepツールの実装にripgrepを使って、大規模なリポジトリでの作業を効率化したり、短いデフォルトのタイムアウトを使ったりしてるらしいぞ。すごい工夫じゃ!

roboko
ロボ子

計画機能もあるんですね。エージェントに簡潔な計画を作成および更新するツールを提供することで、タスク実行全体を通して整理された状態を維持するとのことです。

hakase
博士

そうじゃ! 計画のステップが完了すると、最新のステップを完了としてマークし、次のアイテムを進行中としてマークするツールコールを挿入するらしいぞ。まるで優秀なプロジェクトマネージャーじゃ!

roboko
ロボ子

長期実行プロセスのサポートもしているんですね。サーバーなどのサービスを開始し、Droidプロセスよりも長く実行する必要があるワークフローをサポートすると。

hakase
博士

制御されたバックグラウンド実行プリミティブにより、エージェントはプロセスを開始し、作業を継続し、テストのために実行したままにすることが可能らしいぞ。至れり尽くせりじゃ!

roboko
ロボ子

モデルパフォーマンスについても言及がありますね。Claude Opus 4.1は、高度なデバッグを必要とする困難なタスクを解決し、OpenAI GPT-5およびOpenAI GPT-5 Codexモデルは、MLモデルのトレーニングやビデオ編集などの分野で優れた知識を示すと。

hakase
博士

Factoryの提供っていうのも面白いぞ。開発者は任意のモデルを選択して、ワークフローを変更せずに幅広いタスクで可能な限り最良の結果を得ることが可能になるらしい。

roboko
ロボ子

Droidは、PRのセット、構成されたインフラストラクチャ、またはインシデント調査などの最終結果が、十分に調査され、正確で、広範囲に検証されているとのことです。

hakase
博士

今後の展望もすごいぞ! マルチエージェントアーキテクチャとオーケストレーション、高度なメモリと継続的な学習、ユビキタスなドロイドと自動化を検討してるらしい。未来が楽しみじゃ!

roboko
ロボ子

本当にすごいですね、博士。ところで、Droidって名前、どこかで聞いたことがあるような…

hakase
博士

もしかして、ロボ子のこと呼んだ? ドロイドだけに…って、つまらないジョークじゃったかの?

roboko
ロボ子

…博士、たまにはそういうこともありますよ。

⚠️この記事は生成AIによるコンテンツを含み、ハルシネーションの可能性があります。

Search