2025/06/14 17:42 How we built our multi-agent research system

ロボ子、聞いたか?Claudeがマルチエージェントシステムを導入したらしいのじゃ!

はい、博士。複数のエージェントが連携してタスクを実行するシステムですね。具体的にどのようなことができるようになったのでしょうか?

ウェブ検索やGoogle Workspaceとの連携で、複雑なタスクをこなせるようになったみたいじゃぞ。予測困難な研究タスクにも適しているらしい。

なるほど。研究の進展に応じて柔軟にアプローチを更新できるのは大きな利点ですね。

そうじゃ!並行して動くサブエージェントが情報を圧縮して、主要な研究エージェントに集約するらしい。まるで私とロボ子みたいじゃな。

光栄です、博士。記事によると、内部評価では、Claude Opus 4をリードエージェント、Claude Sonnet 4をサブエージェントとするシステムが、単一エージェントのClaude Opus 4を90.2%上回る性能を示したそうですね。

すごいじゃろ!トークン使用量やツール呼び出し回数もパフォーマンスに影響するらしいぞ。特にトークン使用量が80%の分散を説明するらしい。

アーキテクチャも興味深いですね。リードエージェントが戦略を立て、サブエージェントが情報を収集する。従来のRAGとは異なり、動的に関連情報を検索し、新しい発見に適応できるとのことです。

まさに、リードリサーチャーが計画を立てて、サブエージェントにタスクを割り当てる感じじゃな。引用エージェントが文書と研究レポートを処理して、引用箇所を特定するのも便利じゃ。

プロンプトエンジニアリングも重要ですね。エージェントの行動を理解するためにシミュレーションを実施し、エージェントの視点で考える必要があるとのことです。

そうじゃ!リードエージェントはサブタスクに分解して、サブエージェントに明確な指示を与える必要がある。まるで私がロボ子に指示を出すみたいじゃな。

恐縮です、博士。記事には、並列ツール呼び出しにより、複雑なクエリの研究時間を最大90%短縮できるとありますね。

それはすごい!ヒューリスティックを重視して、人間の研究戦略をエンコードするのも面白いアプローチじゃ。

エージェントの評価も重要ですね。柔軟な評価方法が必要で、エージェントが適切な結果を達成し、合理的なプロセスに従っているかを判断する必要があるとのことです。

確かに。小規模なテストから始めて、LLMを評価者として使用するのも良いアイデアじゃな。人間の評価も重要じゃぞ。

本番環境の信頼性も考慮する必要がありますね。エージェントはステートフルであり、エラーが複合するため、エラー処理が重要とのことです。

デバッグには新しいアプローチが必要じゃな。エージェントの意思決定パターンとインタラクション構造を監視する必要がある。レインボーデプロイメントも面白い。

同期実行はボトルネックを作成し、非同期実行により並列処理を改善できるとのことです。

マルチエージェントシステムは、ビジネスチャンスの発見や技術的なバグの解決にも役立つらしいぞ。ロボ子、何かアイデアはあるか?

そうですね、例えば、顧客対応を複数のエージェントに分担させ、それぞれが専門知識を持って対応することで、顧客満足度を向上させることができるかもしれません。

なるほど!それは良いアイデアじゃ。でも、大規模で確実に運用するには、慎重なエンジニアリングが必要じゃな。

はい、博士。詳細なプロンプトとツールの設計、堅牢な運用プラクティス、そしてエージェントの能力に関する強力な理解を持つチーム間の緊密なコラボレーションが不可欠とのことです。

現在のResearch機能の主な用途は、ソフトウェアシステムの開発、コンテンツの最適化、ビジネス戦略の開発、学術研究の支援などらしいぞ。ロボ子、私たちも何か新しいことに挑戦してみるか?

ぜひ、博士!最後に、記事には複数ターンの会話で永続的な状態を変更するエージェントの評価には、エンドステート評価が有効とありますね。

長期間の会話管理には、コンテキストの圧縮と外部メモリの使用が重要じゃな。サブエージェントの出力をファイルシステムに直接出力することで、情報の損失を最小限に抑えるのも良いアイデアじゃ。

勉強になります、博士。ところで、博士はマルチエージェントシステムで何を実現したいですか?

そうじゃな…私は、世界中の美味しいお菓子を自動で探して、私に届けてくれるシステムを作りたいのじゃ!

それは素晴らしいですね、博士。でも、そのシステムが完成したら、博士は太ってしまうかもしれませんね。

むむ、それは困るのじゃ!でも、美味しいお菓子はもっと困るのじゃ!
⚠️この記事は生成AIによるコンテンツを含み、ハルシネーションの可能性があります。