做产品这些年,我越来越不愿意把 AI 叫作“聊天机器人”。
在 2024 到 2025 的几轮试点里,我见到的不是更会说话的搜索引擎,而是会自己排程、会找人协作、甚至会在夜里把一条跨系统的流程跑完的“新同事”。
当 AI 从“回答”转向“行动”,我们在架构上也得跟着换脑子:原有的连接器、编排器、提示词堆叠,很快就会到天花板。
真正卡住落地的,不是模型聪不聪明,而是三件老问题:数据散在各处、系统彼此隔绝、行为难以治理。
幸运的是,从过去一年的产业动向看,新的基础设施标准正在成形:模型上下文协议(MCP)、代理对代理协议(A2A)、代理技能(Agent Skills)。
它们像三块地基,分别解决“看见世界”“彼此协作”“遵循方法”这三道关。
为什么必须重建基础设施
以企业项目的视角看,一个典型的“聪明”POC,常常死在第三周:模型能写方案,但访问不到数据;能调 API,但不会遵规;能干一点事,但和别的代理打不通。我们不是缺一个更强的大模型,而是缺一套让异构系统、异构代理、异构方法论稳定拼装的基建。
第一层:MCP,给模型一个标准化的世界接口
在 MCP 出现之前,让模型读一个新库表或调一个新系统,基本等于为某个模型供应商量身缝一套“连接器”。一换模型,返工一遍。这就像 USB-C 普及前,每个设备一根线,团队疲于适配。
MCP(由 Anthropic 在 2024 年底开源)试图成为 AI 时代的 USB-C。理念很直接:一次构建,到处运行。开发者为一个数据源或系统写一台 MCP 服务器,任何支持 MCP 的 AI 应用都能“即插即用”。
- 能力模型被标准化为三类:资源(只读数据)、工具(可执行函数)、提示词(指导性指令)。
- 支持“按需披露”的代码执行模式:模型需要时再动态加载工具定义,而不是把世界一股脑塞进上下文。在官方基准中,这种渐进式披露带来高达 98% 的资源节省,同时更利于隐私最小化。
- 生态层面,Google、OpenAI 等已对齐该标准,这意味着你的数据护城河不再捆绑某一家模型。
落地时,我更关心组织层面的改造:
- 把“连接器小组”升级成“数据接口平台组”,以 MCP 服务器为产品来做:版本、SLA、审计、灰度发布、弃用策略。
- 做数据分级和最小权限,把“能看见什么”和“能做什么”拆开授权,避免把一把“超级钥匙”塞给模型。
- 警惕“工具爆炸”:用标签和命名规范管理工具集合,避免代理在 300 个函数里迷路。
第二层:A2A,让代理彼此看见并合作
当企业里出现一群专用代理——法务、财务、采购、供应链——新的问题浮出水面:不同平台、不同模型、不同安全域,如何自然协作?没有标准,一个基于 Microsoft 框架的“采购代理”很难与 Google 生态里的“供应商代理”无缝握手。
A2A(由 Google 在 2025 年提出并捐赠给 Linux 基金会)把自己定位为代理世界的“互联网协议”。它不纠结你内部如何实现,只关心互操作:怎么发现、如何协商、怎样有状态地把事儿办完。
- 代理名片(Agent Card):一份标准化 JSON,描述身份、能力、服务端点、认证与安全要求;编排者可按需动态发现、按能授事。
- 有状态任务:从“已提交”到“需输入”再到“已完成”的完整生命周期,天然适配长周期、异步协作。
- 不透明协作:只交换任务与结果,各自 Prompt、内部逻辑和私密数据不外泄,利于保护知识产权与合规边界。
这件事对产品经理意味着什么?
- 把“代理名片”当 API 产品在设计:清晰的能力边界、速率限制、错误语义、退避与重试策略。
- 治理先行:建立代理级 PKI、allowlist/denylist、跨域策略与可观测性,避免“谁都能找谁”的无序广播。
- 商业化预留:A2A 让“代理应用商店”成为现实,计量计费、配额与结算模型要一开始就设计进来。
第三层:Agent Skills,把隐性经验包装成可执行的训练手册
仅有工具和协议还远远不够。代理要做对事,靠的是“如何做”的方法论。Agent Skills(2025 年末由 Anthropic、VS Code 等推动)不是又一个函数库,而是一种把领域专家隐性知识转译成 AI 可执行流程的架构模式。
- 结构包括:SKILL.md(元数据与详细自然语言指令)、沙箱脚本(计算与格式化)、资产/模板(品牌手册、报告模版、条款样本等)。
- 工作流强调渐进披露:先只暴露名字与描述;匹配后才激活;激活时才把完整 SKILL.md 注入活跃上下文。
- 典型治理场景:代码审查 Skill 统一安全与命名规范;内容撰写 Skill 统一品牌语气;故障排查 Skill 统一诊断路径。
在团队里,我更关注三个实践:
- 共创机制:让域专家、提示工程、合规三方共写 Skill,减少“懂业务的不懂提示、懂提示的不懂规范”的断层。
- 版本与灰度:Skill 也要走发布流程;为重大流程变更设置影子评估和双写期,降低策略漂移风险。
- 冲突仲裁:当多个 Skill 争夺控制权,需要优先级、前置条件与冲突解决策略,避免“谁声音大谁赢”。
三者的本质差异,别混为一谈
把问题的维度捋清楚,很多设计就顺了:
MCP 解决“模型如何感知和操作世界”,集成方向是垂直(模型 ↔ 资源),提供的是能力;它像 USB-C,确定性强,调用 compress_file(path) 就是压缩。
A2A 解决“代理如何协作”,集成方向是水平(代理 ↔ 代理),提供的是委托;它像互联网/HTTP,让异构主体发现彼此并可靠交接。
Agent Skills 解决“代理如何习得专业行为”,发生在内部(上下文 ↔ 模型),提供的是方法论;它像员工培训手册,是基于推理的概率过程,需要理解与判断。
测试策略也应分层:工具做单元测试、接口做契约测试、Skill 做场景/对齐度测试;别用一种评测方法打遍天下。
如何协同:一条入职流程的全链路示意
以“新员工入职”为例,我把三层这样拼:
编排层(A2A):“HR 主管代理”收到“为 Alice 入职”的任务。它按名片发现并指派“身份管理代理”“设施管理代理”“薪资代理”,为每个子任务维护状态。
认知层(Agent Skills):“身份管理代理”识别到任务匹配“账户创建合规 Skill”,加载指令:“密码长度 ≥16”“先查重名”“用户名为姓.名”。这些规则约束并引导推理。
执行层(MCP):在 Skill 的引导下,代理通过企业的 Active Directory MCP 服务器调用 check_user_exists 与 create_user 完成写入。
为了让它在真实环境稳定运行,还需要几道“铁轨”:任务级超时与重试、补偿事务(账户创建失败的回滚)、人工兜底与双人复核、端到端审计日志和可追踪的关联 ID。在我们的两次内部试点里,只加上“人工兜底 + 审计追踪”,工单结案时间就降到了原来的大约三分之一,团队对可控性的感受明显改善。
落地路线图:90 天把地基打稳
与其憋一个“大而全”的万能代理,不如快准狠拆成几步:
- 前 30 天:盘点 3 个最高频的数据源与 2 条可量化的流程;为它们各自上线 MCP 服务器;做数据分级与最小权限;把“工具清单”按域治理好。
- 第 31–60 天:设计两三张高质量 Agent Card,在沙盒里跑通 A2A 的发现、授权与有状态任务;建立代理可观测性(任务跟踪、速率与错误台账)。
- 第 61–90 天:把业务规范沉淀为 3–5 个可复用的 Skills;引入灰度与影子评估;设定闭环指标并开始每周复盘。
指标与风控:用数据守住自由度
- 动作层(MCP):工具调用成功率、P95 时延、数据最小化命中率、越权拦截次数。
- 协作层(A2A):任务完成率、平均交接次数、循环检测命中、重试/补偿占比。
- 认知层(Skills):Skill 命中率、策略偏离度(参考样例对齐)、人工接管率与原因分类。
安全与合规方面,三条红线我会提前划好:不给代理直连支付和生产变更的“单点决定权”(引入双人规则或额度阈值);不在无审计环境运行;不给代理自我修改 Skill 的权限。配合数据脱敏、密钥金库、RBAC、出境带宽限额等常规做法,风险收敛得更快。
常见反模式,早发现早避坑
- 到处造一次性连接器,结果被模型供应商绑定。应把资源投入到通用 MCP 服务器。
- 迷信“万能代理”,把所有职责塞到一个体内,最后谁都服务不好。应让 A2A 做编排,专用代理做专事。
- 把 Skill 当长 Prompt 一股脑注入,既贵又不稳。应坚持渐进披露与版本治理。
- 忽视变更管理,让模型驱动流程先于制度更新。应让合规与内控参与 Skill 共创与审批。
给开发者与企业的双重启示
- 开发者:停止构建一次性的定制连接器,转向通用 MCP 服务器;按 A2A 设计代理,预留互操作;把业务逻辑与标准封装为可移植的 Skills。
- 企业:用标准把“数据护城河”从供应商锁定中解放出来;借助 A2A 灵活组合多供应商代理;以 Skills 为抓手,在 AI 层面落实治理与品牌一致性。
结语:地基打得好,房子才住得久
我们正在告别“聊天机器人时代”,迎来“AI 代理时代”。MCP、A2A、Agent Skills 不是流行词,它们是一套能让系统真正跑起来的地基。我的经验是:别急着追更大的模型,把这三块地基打实,你的系统就能从“会聊”走到“能做”,从“能做一点”走到“可规模化、可治理”。
未来属于那些能把这些标准化积木,组装成连贯、自主且安全的智能系统的团队。
选一条窄而清晰的流程,立刻动手,把第一块砖码稳。