Anthropic 公司的人工智能多智能体系统深度解析

June 18, 2025

Anthropic 如何打造突破性的多智能体 AI 系统

Anthropic 公布了其先进的多智能体研究系统背后错综复杂的工程设计,这项关键性进展显著提升了 Claude 处理复杂、开放式问题的能力。深入了解他们从原型到生产的历程,为全球人工智能的未来发展和开发者提供了宝贵的见解和经验。

多智能体 AI 的力量

与传统的单智能体系统不同,多智能体 AI 模仿人类协作,利用多个 Claude 智能体同时探索复杂主题。这种方法对于研究任务尤其有效,因为所需步骤具有高度不可预测性和动态性。Anthropic 的工程师解释说:“当人们进行研究时,他们倾向于根据发现不断更新方法,追随调查过程中出现的线索。” 这种灵活性正是多智能体系统所带来的优势。

Anthropic 的内部评估显示,与单智能体 Claude Opus 4 系统相比,多智能体系统的性能提升了惊人的 90.2%,尤其是在广度优先查询方面。例如,一个多智能体系统通过任务分解,成功识别了信息技术标准普尔 500 指数公司的所有董事会成员,而单智能体却很难完成这项壮举。

尽管功能强大,多智能体系统却资源密集,消耗的 Token 远多于典型的聊天交互(最多可达 15 倍)。这使得它们主要适用于那些受益于大量并行化和复杂工具交互的高价值任务,从而具有经济可行性。

架构创新:协调器-工作器模式

Anthropic 研究系统的核心在于其协调器-工作器模式。一个主智能体分析用户查询,制定策略,然后生成专门的子智能体并行操作。这些子智能体充当智能过滤器,迭代地收集信息,然后将发现浓缩,最终由主智能体合成一个全面、最终的答案。

这种动态、多步骤的搜索与传统的信息检索增强生成(RAG)模型形成鲜明对比,后者依赖于静态检索。Anthropic 的方法允许实时适应和分析,从而产生更高质量和更细致的结果。

掌握提示工程以实现智能体协作

多智能体系统面临的最大挑战之一是有效协调多个智能体。Anthropic 团队发现,提示工程是他们成功的首要杠杆。关键原则包括:

  • 像你的智能体一样思考: 了解智能体如何解释提示和工具对于识别和修复故障模式至关重要。
  • 掌握任务委托: 主智能体必须向子智能体提供明确、详细的指令,以防止重复工作并确保全面覆盖。
  • 根据复杂性调整付出: 智能体被提示遵循指导方针,以高效分配资源,防止在简单查询上过度投入。
  • 关键工具设计: 清晰的工具描述和启发式方法指导智能体有效地选择和使用正确的工具。
  • 智能体自我改进: Claude 4 模型在诊断自身故障和提出提示改进方面表现出色,甚至能重写工具描述以提高性能。
  • 引导思维过程: 利用 Claude 的扩展思考模式,智能体可以规划、评估和完善其方法,显著提高指令遵循和效率。

并行工具调用也极大地提升了速度,通过允许主智能体启动多个子智能体以及子智能体同时使用多个工具,复杂查询的研发时间缩短了高达 90%。

评估不断演进的 AI 系统

评估多智能体系统带来了独特的挑战,因为它们具有非确定性。Anthropic 强调:

  • 早期、小样本评估: 即使只有少量测试用例,也能在开发早期发现显著改进。
  • LLM 作为评估者: 大型语言模型在根据事实准确性、引用准确性、完整性和来源质量等标准,以编程方式对研究输出进行评分方面表现出色。
  • 人工监督: 尽管实现了自动化,人工测试人员对于发现边缘情况、意外行为和自动化评估可能遗漏的细微偏差仍然至关重要。

生产可靠性和工程挑战

将多智能体系统投入生产涉及克服重大的工程障碍。智能体是有状态的且运行时间长,这意味着微小错误可能导致严重的行为问题。Anthropic 通过构建能够从错误中恢复的系统,利用 Claude 的智能来适应工具故障,并采用重试逻辑和检查点等强大的安全措施来解决这个问题。

调试非确定性智能体需要新颖的方法,包括全面的生产跟踪来诊断行为,以及对智能体决策模式的高级可观察性。部署还需要仔细协调,彩虹部署等技术可确保更新期间的持续运行。

虽然同步执行简化了协调,但 Anthropic 承认未来的异步执行将释放更大的并行性和性能,从而证明增加的复杂性是合理的。

变革性影响

尽管面临挑战,多智能体系统已被证明对开放式研究任务非常宝贵。用户报告称,工作时间缩短了数天,发现了商机,处理复杂选项,并比以往更快地解决了技术错误。这表明,精心设计的工程、全面的测试和紧密的协作,对于将复杂的 AI 原型转化为可靠、可扩展的生产系统,从而真正解决现实世界问题,产生了深远的影响。

原创文章: 查看原文

分享本文