10+年产品经理聊聊产品、测测产品,产品人交流学习成长平台,按 Ctrl+D 收藏我们
留言板 小程序 交流群 关于我

苏米客

  • 首页
  • AIGC
    • AI最新动态
    • AI学习教程
    • AI工具集合
    • AI产品百科
    • AI编程开发
    • AI提示词
  • Axure
    • Axure动态
    • Axure教程
  • 产品
    • 用户体验
    • 产品设计
    • 苏米杂谈
  • 资源
    • 产品UI组件库
    • 开源图标库
    • 中后台框架
  • 书单
    • AI书籍
    • 用户体验
    • UI视觉
    • 产品研究
    • 其他类型
  • 下载
    • Axure组件
    • Axure原型
    • 文档报告
    • 素材资源
  • 登录
  • 首页
  • AIGC
    • AI最新动态
    • AI学习教程
    • AI工具集合
    • AI产品百科
    • AI编程开发
    • AI提示词
  • Axure
    • Axure动态
    • Axure教程
  • 产品
    • 用户体验
    • 产品设计
    • 苏米杂谈
  • 资源
    • 产品UI组件库
    • 开源图标库
    • 中后台框架
  • 书单
    • AI书籍
    • 用户体验
    • UI视觉
    • 产品研究
    • 其他类型
  • 下载
    • Axure组件
    • Axure原型
    • 文档报告
    • 素材资源

Anthropic研究报告:我们如何构建多智能体研究系统,浅谈多智能体AI系统

12小时前 32 0

还记得你上次做复杂项目的时候吗?比如准备一份重要的商业提案,你需要查市场数据、分析竞争对手、整理财务预测,还要找各种引用资料。一个人干这活儿,基本上就是开十几个网页,复制粘贴到半夜,最后还担心数据有错。

现在想象一下,如果有一个AI团队来帮你——不是一个万能的AI,而是一群各有专长的AI,像真正的团队一样分工合作。主管负责制定策略,研究员各自负责不同模块,最后还有专人负责核查引用。

在 Anthropic 最新发布的工程报告中,他们仔细剖析了多智能体系统如何从“从 0 到 1”升级并落地——远非简单接龙式查询,而是构建了一套高效的“AI 团队”

一句话说完:Anthropic 不只是让 Claude 更聪明,而是把它变成一个“懂组织、会配合、能分工”的研究团队——把人类自上而下的协作方式搬到了 AI 上。解决复杂问题,不再是一个 prompt → 输出,而是:目标 → 拆解 → 协作 → 调度 → 整理 → 引用,也正是我们工作方式的真实投射。

一个让人瞠目结舌的对比实验

Anthropic做了个简单但震撼的测试:让AI完成这样一个任务——"列出S&P 500指数中所有信息技术类公司的董事会成员"。

单个Claude处理时,就像一个勤奋但笨拙的实习生:查一个公司,整理一下,再查下一个,线性处理,速度慢,还容易漏信息。

多智能体版本的Claude呢?就像一个高效的项目组:

  • 主管快速制定查询策略

  • 多个研究员同时处理不同公司

  • 专门的质检员负责核实引用来源

  • 最后统一汇总成完整报告

结果?完成率提升了90%!

这个数字背后的启示很简单:再聪明的个体,也比不过一个组织良好的团队。

AI版本的"公司组织架构"

Anthropic是怎么"管理"这支虚拟团队的?他们的做法特别像真实公司的运作:

主控智能体就是项目经理,负责拆解任务、分配工作。它会说:"小张你查A公司的董事变动,只用官网和年报;小李你负责B公司,记得交叉验证。"

子智能体像各个部门的专员,每人接到具体任务后,自己去用工具查资料、判断信息真假、做初步总结。关键是它们知道自己的边界——不会越界做别人的活儿。

引用助手就是质检部门,专门检查所有引用是否靠谱,把内容和原始来源一一对应。

记忆系统像公司的文档管理,当任务复杂时,会把中间结果存起来,下次接着用。

最巧妙的是,这些AI不是按部就班地一个接一个工作,而是真正的并行作业。就像一个高效团队,大家同时开工,各干各的,最后汇总结果。

让AI学会"团队合作"的秘诀

很多人以为Anthropic是在写复杂的代码模板。其实不是,他们做的是另一件更聪明的事:研究"优秀的人是怎么合作的",然后把这些协作智慧教给AI。

比如教会AI这些"职场常识":

  • 不抢别人活儿:每个AI都有明确的任务ID,知道自己该干什么,不该干什么

  • 知道什么时候求助:如果查到的信息质量不好,会主动报告或请求支援,而不是硬着头皮瞎编

  • 懂得资源管理:每个任务都有"搜索预算",防止无限循环浪费资源

  • 先宽后窄的策略:先用通用关键词探索,摸清大概情况后再精确搜索

更有意思的是,Anthropic甚至让Claude检查自己的工作失误,自己改进工作方式。就像员工定期总结经验教训,不断优化工作流程。

从Demo到真正上线的工程挑战

很多AI项目都卡在演示阶段,无法真正投入使用。Anthropic在工程实现上做了几个关键设计:

容错机制:一个AI出错了,不会拖累整个任务。就像团队里一个人请病假,其他人能顶上。

平滑升级:系统更新时用"彩虹部署",确保正在进行的任务不受影响。

资源控制:多智能体系统"很费钱",一个复杂任务可能消耗普通聊天15倍以上的资源。所以必须用在真正值得的场景上。

隐私保护:保留系统决策轨迹方便优化,但不记录用户隐私信息。

这套系统到底适合解决什么问题?

根据Anthropic的数据,最常见的使用场景是:

  • 商业研究:企业画像、竞争分析、投资调研

  • 信息验证:背景调查、事实核查、合规审查

  • 内容创作:长篇写作、文献整理、知识体系构建

  • 学术研究:论文脉络梳理、跨领域知识整合

简单说,如果你的问题"不是一句话能回答的",就很适合多智能体系统来处理。

用户反馈中最常见的评价是:"帮我节省了本该花几天的工作。"

重新思考AI的使用方式

看完Anthropic的这套系统,我最大的感触是:AI的未来可能不在于造出一个无所不能的"超级大脑",而在于构建一个高效协作的"智能组织"。

人类解决复杂问题,从来不是靠一个最聪明的人,而是靠一群人的分工合作。Anthropic做的事情,本质上是用"组织行为学"的思路来重新设计AI系统。

这比单纯提升模型能力更有启发性。如果我们把AI看成"合作伙伴"而非"问答机器",那么真正高效的AI工作流程可能是:

目标 → 拆解 → 分工 → 并行执行 → 整合 → 验证

这不就是我们人类团队协作的方式吗?

也许,AI的未来不是让机器变得更像超人,而是让机器学会像人一样协作。当AI懂得了开会、分工、汇报、复盘,它们就不再是工具,而成了真正的工作伙伴。

你觉得呢?在你的工作中,是更需要一个万能的AI助手,还是一个懂得分工合作的AI团队?欢迎在评论区分享你的想法和经验。

完整研究报告翻译

Anthropic:我们是如何构建多智能体研究系统的

Claude 现在具备了研究能力,能够跨网页、Google Workspace 和各类集成工具进行搜索,从而完成复杂任务。

这个多智能体系统从原型走向生产阶段的过程,让我们在系统架构、工具设计和提示词工程方面学到了至关重要的经验。一个多智能体系统由多个智能体(即在循环中自主调用工具的 LLM)协同工作组成。我们的 Research 功能包括一个负责制定研究流程的主控智能体,它会根据用户查询调用工具,并创建多个并行的子智能体同时搜索信息。多智能体系统带来了新的挑战,比如智能体间的协调、评估和可靠性保障。

这篇文章分解了我们总结出的有效原则——希望它们对你构建自己的多智能体系统时有所帮助。

多智能体系统的优势

研究类任务本质上是开放式问题,很难事先预测需要哪些步骤。你无法为探索复杂主题预设一条固定路径,因为研究过程是动态的、依赖于每一步发现的线索的。

当人类进行研究时,他们会根据新的发现不断调整策略,追踪在探索中浮现出的线索。

这种不可预测性使得 AI 智能体在研究任务中尤其适用。研究需要灵活性,要能在探索过程中转向或延伸至相关方向。模型必须在多个回合中自主决策,基于中间成果判断接下来要走哪条路。线性的一次性流水线方案无法胜任这类任务。

搜索的本质是压缩:从海量语料中提取出有价值的见解。子智能体通过并行运行、拥有各自的上下文窗口,同时探索问题的不同方面,再将最重要的 token 汇总给主控研究智能体,极大促进了信息压缩的效率。每个子智能体还可实现关注点的分离——使用不同的工具、提示词和探索路径——从而降低路径依赖、增强研究的独立性和完整性。

一旦模型智能达到某一临界点,多智能体系统就成为扩展性能的关键方式。例如,在过去十万年中,个体人类的智能虽有提升,但进入信息时代后,人类社会的整体能力实现了指数级增长,这得益于“集体智能”与协调能力。即使是通用智能体,作为个体也有极限;成群智能体协作可以实现远超单体能力的成就。

我们的内部评估表明:在需要同时追踪多个独立方向的“广度优先”查询中,多智能体系统的表现尤为出色。我们发现,在以 Claude Opus 4 为主控智能体、Claude Sonnet 4 为子智能体的系统中,整体性能相比单智能体 Claude Opus 4 提高了 90.2%。比如在查询“信息技术类 S&P 500 公司所有董事会成员”时,多智能体系统能将任务拆解分派给多个子智能体并行处理,而单智能体系统则只能顺序检索,效率低且结果不全。

多智能体系统之所以有效,是因为它们能在任务上“烧掉”足够多的 token。在我们对 BrowseComp(测试智能体查找难找信息能力)的分析中,影响性能的三个关键因素解释了 95% 的方差——其中“使用的 token 数量”单独就解释了 80% 的差异,另外两个是工具调用次数与模型选择。这验证了我们通过分布式架构设计提升 token 使用效率的策略,即利用不同上下文窗口的子智能体来提升并行推理能力。Claude 最新模型更进一步地提高了 token 使用效率:将 Sonnet 3.7 升级为 Sonnet 4,效果甚至优于直接翻倍 token 上限。多智能体架构能在超过单智能体处理能力的任务中充分发挥 token 预算的作用。

但也存在缺点:这种架构在实践中非常“烧 token”。我们的数据表明,一个普通的智能体交互平均消耗的 token 是一次聊天的 4 倍,而一个多智能体系统的 token 消耗大约是聊天的 15 倍。为了在经济上可行,多智能体系统必须应用在价值足够高的任务上,才能抵消性能带来的成本。此外,如果某个任务领域要求所有智能体共享完整上下文,或者智能体间存在大量强耦合依赖,那么目前的多智能体系统也并不适用。例如,大多数编程任务中并没有太多可并行处理的子任务,而 LLM 智能体目前还不擅长实时协作与分工。我们发现,多智能体系统最适合高价值、强并行、上下文超出单一窗口、以及需要与复杂工具交互的场景。

Research 架构概览

我们的 Research 系统采用多智能体架构,使用“协调者-工作者”模式,即主控智能体负责整体协调,而多个专职子智能体并行执行任务。

多智能体架构实战图示:用户的查询首先由主控智能体接收处理,它会创建多个专职子智能体,各自并行探索查询的不同方面。

当用户提交一个查询时,主控智能体会分析该查询、制定研究策略,并同时生成多个子智能体,分别去探索不同方向。如图所示,子智能体就像智能过滤器,迭代调用搜索工具,在这个例子中是收集 2025 年 AI 智能体公司的信息,之后将公司列表返回给主控智能体,后者再汇总为最终答案。

传统的检索增强生成(RAG)方法采用的是静态检索——根据输入查询,提取若干最相似的文本片段用于生成回答。而我们采用的架构则是动态的多步骤搜索,能够根据新发现的信息不断调整策略,并对结果进行分析,从而生成高质量的答案。

多智能体 Research 系统的完整工作流程图:用户提交查询后,系统创建一个 LeadResearcher 智能体并进入迭代研究流程。LeadResearcher 先思考整体策略并将研究计划保存至 Memory(用于持久化上下文),因为当上下文窗口超过 20 万 token 时,会发生截断,因此必须保留原始计划。随后,LeadResearcher 会创建多个专职子智能体(图示中为两个,实际可任意数量),分别承担具体的研究子任务。每个子智能体独立进行网页搜索,利用 交叉思考(interleaved thinking) 评估工具结果,并将发现返回主控智能体。LeadResearcher 汇总这些信息,并判断是否还需要进一步研究——如果需要,可以生成更多子智能体,或调整策略。一旦信息充足,系统便退出研究循环,并将所有结果交由 CitationAgent 处理,该智能体负责将研究内容与原始文档进行比对、定位引用出处,从而确保所有结论都有出处。最终带有引用信息的研究结果返回给用户。

针对研究智能体的提示词工程与评估机制

相比单智能体系统,多智能体系统面临的协调复杂度呈指数级增长。早期的智能体常常犯一些错误:比如为简单问题生成 50 个子智能体,在网上没完没了地搜索根本不存在的信息,或者频繁地互相打断更新进度,反而妨碍了任务推进。由于每个智能体的行为都由其提示词驱动,因此提示词工程成为我们优化这些行为的主要手段。以下是我们在优化提示词时总结的关键原则:

  1. 像智能体那样思考。 想要优化提示词,必须理解它们的作用。为此我们在 Console 平台上构建了模拟环境,使用实际系统中的提示词与工具,逐步观察智能体的工作过程。这立刻暴露了很多失败模式:智能体在已有足够信息时仍继续搜索、生成冗长的搜索查询、或选择了错误的工具。提示词调优的关键是建立起对智能体行为的准确心理模型,很多影响深远的优化都来自这种理解。

  2. 教会协调者如何分派任务。 在我们的系统中,主控智能体需要将一个查询拆解成若干子任务,并描述给各个子智能体。每个子智能体都必须明确:研究目标、输出格式、可用工具和资源、任务边界。如果这些信息不清晰,智能体就可能重复劳动、遗漏关键部分、或找不到正确信息。我们最初允许主控智能体仅用一句话说明任务,比如“研究半导体短缺情况”,但实际发现这种描述太模糊,子智能体往往误解任务或进行重复检索。比如,一个智能体研究 2021 年的汽车芯片危机,另外两个则都在查找 2025 年的供应链情况,没有合理的分工。

  3. 将任务复杂度与资源分配挂钩。 智能体不擅长判断任务所需的工作量,因此我们在提示词中加入了“规模控制规则”。简单的事实查询只需 1 个智能体、调用 3-10 次工具;比较任务需要 2-4 个子智能体,每个调用 10-15 次工具;复杂研究任务则可能需要超过 10 个子智能体、每个都有明确分工。这种显式规则帮助主控智能体合理分配资源,避免在简单任务中“过度投资”——这是我们早期版本常见的错误模式。

  4. 工具的设计与选择至关重要。 智能体与工具之间的接口就像人类与计算机之间的 UI 界面一样关键。用对了工具,就能高效完成任务——有时甚至是唯一可行的方式。比如,一个智能体试图在网页上搜索只有 Slack 里才存在的信息,那肯定是徒劳无功。在引入 MCP server 后,模型可以接入外部工具,但由于工具描述质量参差不齐,这个问题变得更严重。我们明确要求智能体在使用工具前先浏览一遍工具列表、结合用户意图选择合适工具、做泛化探索时优先用 Web 工具、在有专用工具时避免使用通用工具。一个差劲的工具描述会彻底带偏智能体方向,因此每个工具都必须定义清晰、用途单一。

  5. 让智能体自我改进。 Claude 4 系列模型在提示词工程方面表现出色。只需提供一个失败案例和相应提示词,它们就能分析失败原因并提出改进方案。我们甚至创建了“工具测试智能体”:给它一个存在问题的 MCP 工具,它会尝试使用,并重写工具描述以避免错误。这个智能体对工具进行了数十次测试,识别出各种细节和 bug。我们通过这一过程显著提升了工具的易用性,后续使用新描述的智能体完成任务所需时间平均减少 40%。

  6. 先广后深。 搜索策略应当模仿人类专家的做法:先整体扫一遍,再深入具体细节。智能体经常会默认使用冗长、具体的搜索语句,结果却一无所获。为此我们在提示词中明确要求先用简短、广义的关键词进行第一轮搜索,然后评估结果,再逐步聚焦方向。

  7. 引导其“思考过程”。 我们使用 延展思维模式,使 Claude 显式输出其“思考路径”——这类似一个可控的草稿区。主控智能体会用这个模式进行任务规划,判断使用哪些工具、判断查询的复杂度和子智能体的数量、为每个子智能体定义任务。测试表明,这显著提升了智能体的指令执行力、推理质量和整体效率。子智能体也会先规划,再在获取工具结果后进行交叉思考:评估信息质量、发现遗漏、优化下一步查询策略,从而更好地适应任务需求。

  8. 并行工具调用能显著提升速度和效果。 复杂研究任务往往需要从多个来源探索信息。我们早期的智能体依赖顺序检索,这极慢。为此我们采用两层并行策略:(1)主控智能体一次性生成 3-5 个子智能体;(2)每个子智能体同时调用多个工具。这种设计将复杂查询的研究时间缩短了约 90%,不仅显著提速,也让 Research 系统在几分钟内完成以往数小时工作,同时覆盖更多信息。

我们的提示词策略侧重于传授“策略性启发”而非“死规则”。我们研究了熟练人类如何完成研究任务,并将其策略编码进提示词中——比如:如何将复杂问题拆解为子问题、如何评估信息质量、如何根据中间发现调整方向、何时应从深度研究转向广度探索。我们也预设了安全边界,防止智能体“无限扩散”。最终,我们依靠快速迭代、精细可观测性和测试用例闭环来不断优化提示词策略。

有效评估智能体系统

构建可靠的 AI 应用离不开良好的评估机制,多智能体系统也不例外。但评估多智能体系统本身就面临独特挑战。传统评估通常假设 AI 每次都遵循同一组步骤:输入 X,系统应该走路径 Y,最终输出 Z。但多智能体系统并不是这样运作的。即便起点完全相同,不同智能体也可能选择截然不同但同样合理的路径达成目标。比如一个智能体查阅了 3 个信息源,另一个可能用了 10 个工具,或者选择了不同工具但得到了相同答案。

由于我们往往事先并不知道“正确步骤”是什么,因此无法仅通过比对路径来判断对错。我们需要更灵活的评估方式,既能判断结果是否正确,也能衡量过程是否合理。

从一开始就用小样本启动评估。 智能体开发早期的改动往往影响巨大,提升空间充足,属于“低垂果实”。一个简单的提示词改动可能将成功率从 30% 提升到 80%。在这种效果差异显著的阶段,几个用例就足以显现成效。我们从大约 20 个真实使用场景出发,反复测试这些查询,以便明确评估提示词和工具改动的影响。我们经常听说,AI 团队推迟构建评估系统,是因为认为必须有成百上千个测试样本才有价值。但实际上,最好从一开始就用几个例子进行小规模评估,而不是等到有能力做大规模测试再开始。

当使用得当时,“LLM 评审”是可扩展方案。 研究任务的输出是自由格式文本,很少有唯一标准答案,因此难以用传统程序化方式评估。这类场景非常适合使用 LLM 担任“评分员”。我们使用了一个由大模型构成的“评判者”,它根据预设评分标准对每个输出打分:包括事实准确性(陈述是否符合来源)、引用准确性(引文是否确实支持该陈述)、覆盖完整性(是否涵盖所有用户要求的信息)、信息源质量(是否优先使用权威来源而非低质量二级网页)以及工具使用效率(是否合理使用工具,次数是否过多或过少)。

我们曾尝试多个评分模型分别评估不同维度,但最终发现:使用一个 LLM,在一个提示词中输出从 0.0 到 1.0 的各项评分以及最终通过/未通过的结果,是最一致、最符合人工判断的方式。尤其在测试用例确实存在“正确答案”时(例如“列出研发投入最高的三家制药公司”),该方法评估表现极好。使用 LLM 评审让我们可以扩展评估规模,轻松评估数百份输出。

人工评估能发现自动机制忽略的盲点。 人类测试者可以发现评估系统遗漏的边缘情况,比如某些奇怪查询中模型产生了幻觉性回答、系统组件崩溃、或选择了偏向 SEO 的低质量信息源等。以我们的经验为例,早期版本的智能体经常选择高度优化的“内容农场”网页,而不是那些权威性更高但排名不高的来源,比如学术 PDF、博客、非主流站点等。我们在提示词中加入了“信息源质量启发规则”,成功缓解了这一问题。

即使评估系统高度自动化,人工测试仍不可或缺。

多智能体系统会出现“涌现行为”,也就是说,即使没有明确编程指定,也可能出现意想不到的协作模式。例如,对主控智能体的微小提示词调整,就可能导致子智能体的行为方式大幅变化。因此,构建成功系统的关键,不只是关注单个智能体行为,还要理解各智能体之间的交互结构。

这也意味着,最有效的提示词不只是任务说明,而是一整套“协作框架”:它要定义清晰的分工策略、解决问题的方法路径、执行资源分配逻辑(例如分配 token 预算、调用次数等)。想要做好这些,离不开高质量的提示词设计、合理的工具接口、有效的行为准则、强大的可观测性与快速反馈迭代机制。

你可以在我们的 Anthropic Cookbook 中查看这些实际系统所使用的提示词示例。

生产级稳定性与工程挑战

在传统软件开发中,bug 可能导致某个功能失效、性能下降、或者系统崩溃。而在智能体系统中,哪怕是微小改动,也可能引发行为的大规模级联变化——这让构建一个能长期运行、持有状态的复杂智能体系统变得异常困难。

智能体具备状态,错误会层层叠加。 智能体通常运行时间较长,需跨多个工具调用维持内部状态。这就要求我们构建健壮的执行机制,并能在出错时提供应对手段。否则,哪怕是一个微小的故障,也可能对整个任务流程造成灾难性影响。一旦发生错误,系统不能简单重启——因为代价太高,用户体验太差。因此我们构建了“可恢复系统”:智能体在出错时可以从中断位置恢复执行。我们还利用 Claude 模型的智能能力来自我应对问题,比如在提示词中让它识别出“某个工具正在出错”,然后换个策略,这种方法效果惊人。我们用 Claude 的智能应对能力 + 稳定的系统保护机制(比如重试逻辑、定期保存状态)相结合,实现了高度鲁棒性。

调试需要全新方式。 智能体的行为是动态的、非确定性的。即使提示词完全一样,模型的每次输出可能不同。这让调试难度骤增。例如,用户可能反馈“智能体没找到明显信息”,但我们却很难复现原因——到底是搜索词不佳?选择了错误来源?还是某个工具崩了?我们引入了完整的生产级追踪系统(production tracing),可系统性地定位问题所在并修复。此外,我们并不会追踪具体的用户对话内容,而是监控智能体的决策模式和交互结构——以确保用户隐私。这种高层级的可观测性帮助我们快速定位问题根因、识别非预期行为并修复共性错误。

部署需精密协调。 智能体系统是一个高度有状态的网络系统,涉及提示词、工具、执行逻辑等要素,它们基本是“长时间运行”的。每当我们部署一个系统更新时,系统中运行的智能体可能正处于任意执行阶段。因此,我们必须防止“良性改动”破坏已有运行中的任务。

我们不能一次性把所有智能体都切到新版本,而是采用 彩虹部署(Rainbow Deploy) 的策略:渐进式将用户从旧版本平滑切换到新版本,同时保证两个版本能同时稳定运行。

同步执行造成瓶颈。 目前我们的主控智能体是以同步方式执行子智能体——它必须等待一批子智能体执行完毕,才能进入下一阶段。这种方式简化了协调流程,但也带来了明显瓶颈。例如,主控智能体在等待时无法指导子智能体、子智能体之间也无法沟通协作,整个系统会因等待单一子任务而卡住。

如果实现异步执行(Asynchronous Execution),就可以实现更大并行度:多个智能体可以同时运行,甚至在运行过程中动态生成新的子智能体。但这也会带来额外挑战,比如如何协调异步结果、如何保持状态一致性、如何处理跨智能体的错误传播等。

随着模型能力提升,我们相信异步系统将带来巨大的性能增益,值得我们在工程上投入实现。

结语(Conclusion)

在构建 AI 智能体的过程中,所谓的“最后一公里”,往往才是最难的一程。从开发者本地跑通的代码,到上线成为可靠的生产系统,中间需要大量工程工作才能真正落地。

在智能体系统中,错误是“累积式”的。传统软件中一个小问题可能仅导致某个功能不可用,而在智能体系统中,一个步骤出错,智能体就可能偏离轨道、进入错误路径,最终导致完全不可预测的输出。这意味着原本只是一个“小 bug”,也可能彻底改变任务走向。

正因如此,原型和生产之间的鸿沟往往比预期更大。

尽管如此,多智能体系统在处理开放式研究类任务方面,已经展现出极高的价值。有用户告诉我们,Claude 帮助他们发现了原本没考虑过的商业机会、顺利应对复杂的医疗决策、解决技术难题,甚至节省了数天的研究时间,找到了自己独自难以发现的信息连接。

通过细致的工程落地、完善的测试体系、精细化的提示词和工具设计、可靠的运行机制,以及研究、产品与工程团队的紧密协作,多智能体研究系统已经可以稳定大规模运行。

我们正在亲眼见证它们改变人们解决复杂问题的方式。

 

这是一张 Clio 的嵌入图(embedding plot),展示了用户在使用 Research 功能时最常见的用例类别:

  • 构建跨专业的软件系统(10%)

  • 撰写和优化技术/专业内容(8%)

  • 发展商业增长与收入策略(8%)

  • 辅助学术研究与教育资料开发(7%)

  • 搜集与验证有关人物、地点、组织的信息(5%)

致谢(Acknowledgements)

本文作者:Jeremy Hadfield, Barry Zhang, Kenneth Lien, Florian Scholz, Jeremy Fox 和 Daniel Ford。

这项工作汇集了 Anthropic 多个团队的共同努力,才使得 Research 功能成为现实。

特别感谢 Anthropic 应用工程团队(apps engineering team),是他们的专注与投入,推动这个复杂的多智能体系统从想法变为落地产品。

同时我们也非常感激早期用户们所提供的宝贵反馈。

附录(Appendix)

以下是一些关于多智能体系统的额外技巧与建议:

评估“状态演变型”智能体的最终结果(End-state evaluation of agents that mutate state over many turns) 对于那些在多轮对话中持续修改状态的智能体来说,传统的评估方法很难适用。因为这些任务不是“只读型”的研究,智能体的每一步操作都会改变后续流程的上下文环境,造成强依赖。

我们发现:与其逐步分析每一步操作,不如将评估聚焦在“最终状态”上——只要它最终达成了正确目标,就无需追求严格一致的中间过程。这种方法接受“路径多样性”的存在,确保智能体即使走了不同路线,也能完成预期任务。

对于更复杂的流程,我们会把评估拆解成多个阶段性检查点,判断是否在特定阶段完成了相应状态更改,而不是逐步核验全部过程。

管理长对话中的上下文(Long-horizon conversation management) 生产级智能体往往需要处理持续数百轮的对话,这对上下文管理提出了很高要求。随着会话推进,常规的上下文窗口逐渐耗尽,因此必须引入智能压缩机制和外部记忆系统。

我们的方法是:当某个阶段性任务完成后,智能体会将其总结,并将关键信息存入外部内存(Memory),然后再开始新任务。如此一来,当上下文接近极限时,系统可以启动一个新的子智能体,用于承接后续任务,旧上下文也可通过记忆系统检索。

这种“分布式上下文管理”策略可有效避免上下文溢出,同时保持对话连续性。

将子智能体输出存入文件系统,减少“传声筒效应”(Subagent output to a filesystem to minimize the ‘game of telephone’) 在某些场景下,让子智能体的结果不必经过主控智能体中转,而是直接以“工件”形式持久化输出,会更加高效和准确。

例如:我们引入了“智能体产物系统”(artifact system),子智能体可调用工具将研究报告、代码、图表等结果写入外部系统,然后只需将指向该工件的引用返回给协调者即可。

这种方式不仅避免了因多轮传递导致信息变形,也节省了因 token 往返造成的资源浪费。

尤其适用于结构化输出场景(代码、报告、图表等),此时子智能体的专属提示词往往能直接生成最佳内容,而无需“中转再翻译”。


原文:https://www.anthropic.com/engineering/built-multi-agent-research-system

声明:本站原创文章文字版权归本站所有,转载务必注明作者和出处;本站转载文章仅仅代表原作者观点,不代表本站立场,图文版权归原作者所有。如有侵权,请联系我们删除。
#Anthropic #研究报告 #多智能体 #多智能体AI系统 
收藏 1
推荐阅读
  • 一文搞懂什么是 Vibe Coding?Vibe Coding工具推荐及Cursor编程开发实践
  • 手把手教你用AI克隆声音:AnyVoice,只需 3 秒在线免费克隆声音,超真实的语音生成
  • 扣子空间保姆级应用教程,爆肝测试字节的通用AI Agent ,带你“零门槛”上手办公助手
  • 如何通过AI制作可视化图表,用DeepSeek一键生成百种图表实战教程
  • 手把手教你用AI编程助手快速搭建一个网站,零基础
评论 (0)
请登录后发表评论
分类精选
Cursor永久免费攻略:无限邮箱注册+重置机器码+Cursor试用期重置工具实现永久免费使用
31097 5月前
安装字节Trae登录提示App Unavailable(应用程序不可用)解决办法,这份官方指南请收好!
10726 3月前
手把手教你如何使用扣子Coze搭建“文生图” AI Bot
9602 10月前
小白也能搞懂的MCP教程,MCP到底有什么用?简单易懂,一学就通
3938 2月前
11 个 免费学习 AI 的飞书知识库,完全免费,必须收藏!
3897 10月前
手把手教你如何用海螺Ai克隆自己的声音,支持情绪化的声音克隆
3605 6月前
手把手教你用AI克隆声音:AnyVoice,只需 3 秒在线免费克隆声音,超真实的语音生成
3322 3月前
如何构建规范文档和详细需求说明,正确使用AI IDE工具编程(附AI编程工具CURSOR的输入文档)
2711 5月前
一文搞懂什么是 Vibe Coding?Vibe Coding工具推荐及Cursor编程开发实践
2117 1月前
N 种 DeepSeek + X 之DeepSeek + Xmind 快速生成思维导图,DeepSeek实操教程
1948 3月前

文章目录

关注「苏米客」公众号

订阅推送更及时,手机查看更方便
分类排行
1 Anthropic研究报告:我们如何构建多智能体研究系统,浅谈多智能体AI系统
2 Claude Code新手入门必备的12个使用技巧,你的命令行编程神器
3 手把手教你开通:如何1美元解锁ChatGPT Team团队版(附取消订阅指南)
4 Claude Code:你的智能代码助手,智能编码的最佳实践
5 如何通过AI制作可视化图表,用DeepSeek一键生成百种图表实战教程
6 我用Claude 4拆解了Claude 4的系统提示词
7 微信小程序开发者工具内置CodeBuddy开发体验,奔溃!
8 一文搞懂什么是 Vibe Coding?Vibe Coding工具推荐及Cursor编程开发实践
9 MCP 加速 AI 赋能各行各业,关于MCP安全风险报告的思考
10 扣子空间保姆级应用教程,爆肝测试字节的通用AI Agent ,带你“零门槛”上手办公助手
©2015-2024 苏米客XMSUMI 版权所有 · WWW.XMSUMI.COM 闽ICP备14005900号-6
免费影视APP 花式玩客 免费字体下载 产品经理导航 Axure RP 10 免费Axure模板 Axure原型设计 Axure元件库下载 原创Axure模板 申请友联