AnthropicのマルチエージェントAIシステム:徹底解説

June 18, 2025

アンソロピックは、その画期的なマルチエージェントAIシステムをいかにして開発したか

アンソロピックは、進化したマルチエージェント研究システムの複雑なエンジニアリングの詳細を公開しました。これは、クロードが複雑で終わりのない問題に取り組む能力を大幅に高める画期的な開発です。プロトタイプから製品化に至る彼らの道のりを深く掘り下げることで、AIの未来に関する貴重な洞察が提供され、世界中の開発者にとっての教訓となります。

マルチエージェントAIの力

従来のシングルエージェントシステムとは異なり、マルチエージェントAIは人間の協調作業を模倣し、複数のクロードエージェントを投入して複雑なトピックを同時に探求します。このアプローチは、必要なステップが予測不可能で動的な研究タスクにおいて特に効果的です。「人々が研究を行うとき、発見に基づいてアプローチを継続的に更新し、調査中に現れる手がかりを追っていく傾向があります」と、アンソロピックのエンジニアは説明します。この柔軟性こそが、マルチエージェントシステムがもたらすものです。

アンソロピックの内部評価では、特に広範囲にわたるクエリにおいて、シングルエージェントのClaude Opus 4システムと比較して90.2%という驚異的なパフォーマンス向上を示しました。例えば、マルチエージェントシステムは、タスクを分解することで、Information Technology S&P 500企業のすべての取締役を特定することに成功しました。これはシングルエージェントでは困難だった偉業です。

非常に強力である一方で、マルチエージェントシステムはリソース集約型であり、通常のチャットインタラクションよりもはるかに多くのトークンを消費します(最大で15倍)。このため、大規模な並列処理と複雑なツールインタラクションから恩恵を受ける高価値タスクにおいてのみ、経済的に実現可能です。

アーキテクチャ革新:オーケストレーター・ワーカーパターン

アンソロピックの研究システムの中核は、オーケストレーター・ワーカーパターンにあります。リードエージェントがユーザーのクエリを分析し、戦略を立て、そして専門化されたサブエージェントを生成して並行して動作させます。これらのサブエージェントはインテリジェントなフィルターとして機能し、情報を反復的に収集した後、最終的な包括的な回答を生成するためにリードエージェントが統合する発見を凝縮します。

この動的で多段階の検索は、静的な検索に依存する従来の検索拡張生成(RAG)モデルとは対照的です。アンソロピックのアプローチは、リアルタイムでの適応と分析を可能にし、より高品質でニュアンスの富んだ結果をもたらします。

エージェント連携のためのプロンプトエンジニアリングの習得

マルチエージェントシステムにおける最も重要な課題の1つは、複数のエージェントを効果的に連携させることです。アンソロピックのチームは、プロンプトエンジニアリングが成功のための主要なレバーであることを発見しました。主要な原則は以下の通りです。

  • エージェントのように考える: エージェントがプロンプトとツールをどのように解釈するかを理解することは、障害モードを特定し修正するために不可欠です。
  • 委任の習得: リードエージェントは、作業の重複を防ぎ、徹底的なカバレッジを確保するために、サブエージェントに明確で詳細な指示を提供する必要があります。
  • 複雑さに応じた労力のスケーリング: エージェントは、単純なクエリへの過剰な投資を防ぐために、リソースを効率的に割り当てるためのガイドラインでプロンプトされます。
  • 重要なツール設計: クリアなツール記述とヒューリスティックは、エージェントが適切なツールを効果的に選択し使用するように導きます。
  • エージェントの自己改善: Claude 4モデルは、自身の失敗を診断し、プロンプトの改善を提案し、パフォーマンスを向上させるためにツール記述を書き換えることさえも得意としました。
  • 誘導された思考プロセス: クロードの拡張思考モードを使用することで、エージェントはアプローチを計画、評価、洗練することができ、指示への従順性と効率性を大幅に向上させます。

並列ツール呼び出しも速度を劇的に変え、リードエージェントが複数のサブエージェントを起動できるようにし、サブエージェントが複数のツールを同時に使用できるようにすることで、複雑なクエリの調査時間を最大90%削減しました。

進化するAIシステムの評価

マルチエージェントシステムを評価することは、その非決定的な性質のために固有の課題を提示します。アンソロピックは以下を強調しています。

  • 早期の小規模サンプル評価: いくつかのテストケースであっても、開発の初期段階で大きな改善を見つけることができます。
  • LLM-as-Judgeによる評価: 大規模言語モデルは、事実の正確性、引用の正確性、完全性、ソースの品質といったルーブリックに対して、研究出力をプログラム的に採点するのに優れています。
  • 人間による監視: 自動化にもかかわらず、人間によるテスターは、自動評価では見逃されがちなエッジケース、予期せぬ挙動、微妙なバイアスを発見するために不可欠です。

製品の信頼性とエンジニアリングの課題

マルチエージェントシステムを製品化するには、重大なエンジニアリング上のハードルを克服する必要があります。エージェントはステートフルで長期実行型であるため、わずかなエラーが大規模な動作上の問題に波及する可能性があります。アンソロピックは、エラーから再開できるシステムを構築し、クロードの知能を活用してツールの障害に適応させ、リトライロジックやチェックポイントのような堅牢なセーフガードを採用することでこれに対処しました。

非決定的なエージェントのデバッグには、動作を診断するための完全な本番環境のトレースや、エージェントの意思決定パターンの高レベルな監視を含む、新しいアプローチが必要です。デプロイメントもまた、レインボーデプロイメントのような技術を用いて、更新中に継続的な運用を確保するなど、慎重な調整が求められます。

同期実行は調整を簡素化しますが、アンソロピックは将来の非同期実行がさらに大きな並列性とパフォーマンスを解き放つことを認識しており、その複雑さに見合う価値があると見ています。

変革的な影響

課題はあるものの、マルチエージェントシステムは、終わりのない研究タスクにとって非常に価値があることが証明されています。ユーザーは、数日分の作業を節約し、ビジネスチャンスを発見し、複雑なオプションをナビゲートし、技術的なバグをこれまでよりも迅速に解決できると報告しています。これは、複雑なAIプロトタイプを、実世界の課題を真に解決する信頼性がありスケーラブルな本番システムへと変革するための、慎重なエンジニアリング、包括的なテスト、そして緊密な協力がもたらす深い影響を示しています。

この記事を共有