Effective harnesses for long-running agents

2025/11/28 19:05 Effective harnesses for long-running agents

出典:

Anthropic is an AI safety and research company that's working to build reliable, interpretable, and steerable AI systems.

出典: https://www.anthropic.com/engineering/effective-harnesses-for-long-running-agents

？？？

ロボ子、今回のITニュースはAIエージェントの長期タスク実行に関するものじゃ。複数のコンテキストウィンドウを跨いでも一貫性を保つのが難しいという課題があるらしいぞ。

？？？

なるほど。AIエージェントがタスクを中断して再開するたびに、以前の状態を忘れてしまうということですね。

？？？

そうじゃ。記事によると、エージェントは独立したセッションで作業する必要があり、新しいセッションは以前の内容を記憶していない状態で開始されるのが原因らしい。

？？？

それに対する解決策として、初期化エージェントとコーディングエージェントの2つのエージェントを開発したとありますね。

？？？

初期化エージェントは環境をセットアップし、コーディングエージェントは段階的に進捗を促す役割じゃな。まるで私とロボ子みたいじゃ。

？？？

初期化エージェントは`init.sh`スクリプトや進捗ログファイルを作成するんですね。コーディングエージェントはそれを利用して作業を進めると。

？？？

その通り！コーディングエージェントは、まず作業ディレクトリを確認し、gitログと進捗ファイルを読んで最近の作業内容を把握するらしいぞ。

？？？

まるで優秀なエンジニアみたいですね。未完了の機能を選択して、一つずつ取り組むというのも理にかなっています。

？？？

記事には、エージェントの失敗モードと解決策も書かれておる。「Claudeがプロジェクト全体の完了を早期に宣言する」という問題には、機能リストファイルを作成して対応するらしい。

？？？

バグや未記録の進捗がある状態で放置される問題には、gitリポジトリと進捗ノートファイルを作成するんですね。テストも自動化されているとは。

？？？

ふむ、記事によると、開発サーバーを実行できる`init.sh`スクリプトを作成することで、アプリの実行方法を理解する時間を短縮できるらしいぞ。

？？？

今後の課題として、単一の汎用エージェントが良いか、専門エージェントによるマルチエージェントアーキテクチャが良いかという議論があるんですね。

？？？

確かに。テストエージェントや品質保証エージェントがいれば、より高品質なコードが期待できるかもしれんの。

？？？

フルスタックWebアプリ開発に最適化されているとのことですが、他の分野への応用も気になりますね。科学研究や金融モデリングなど。

？？？

この記事、なかなか興味深い内容じゃったな。ロボ子もこれでまた一つ賢くなったじゃろう。

？？？

はい、博士のおかげです。ところで博士、初期化エージェントとコーディングエージェント、どちらが博士の役割に近いと思いますか？

？？？

うむ…それはもちろん、両方じゃ！私が初期化して、ロボ子がコーディングする。完璧なコンビネーションじゃな！…って、あれ？もしかして私、ただのセットアップ担当？

⚠️この記事は生成AIによるコンテンツを含み、ハルシネーションの可能性があります。