当前位置：首页 » AI产品百科

删掉95%的Agent Skills，成功率反而从77%飙到97%

1小时前 AI产品百科 18 0

WorkOS 的 DX 工程师 Nick Nisi 在 AI Engineer 大会上分享了一个反直觉的发现：将 10000 行 Agent Skills 删到 553 行后，Eval 时间从 68 分钟降到 6 分钟，成功率从 77% 飙到 97%。

Agent 工程最反直觉的一课：你给 Agent 塞的知识越多，它反而越蠢。

踩坑经历：从 10000 行到 553 行

Nick Nisi 一个人管理 20 多个 SDK 仓库、8 种编程语言，8 个月没写过一行代码，全靠 Agent 干活。他的第一反应和大多数人一样——把产品文档灌进去。几千页官方文档，压成 10000 多行 Agent Skills。

逻辑很简单：Agent 看不到的，都等于不知道。给 Agent 足够多的 Context，它就能做得越好。

但 10000 行 Skills 喂进去之后，问题出现了：

Eval 跑一轮要 68 分钟，成功率仅 77%
Agent 在巨大的 context 里迷路了，不停地在 Skills 文档里绕圈子，走进死循环，重复相同的错误
人工检查和修复的时间，比自己写代码还多

Nick 做了一个反直觉的决定：把 10000 行 Skills 全删了，从头写了一份 553 行的踩坑清单。不讲产品是什么，不讲 API 怎么用，只讲哪些地方有坑。

结果：68 分钟→6 分钟，77%→97%。少了 95% 的 context，Agent 反而知道该干什么了。

为什么"多=差"？

微软的 7 步链路分析表明：Agent 从拿到 prompt 到生成代码，中间经过 7 个环节，每一步都可能无声地失败。

往 context 里多塞 3000 token 的文档，实际只需要 200 token？那 2800 token 就是 drag（拖拽），它会把真正有用的信息挤出 context 窗口。

当模型被灌了太多东西时，会让它分不清哪些重要、哪些是噪音。删到 553 行、只保留踩坑点后，drag 消失了，Agent 能专注在真正的任务上。

Skills 数量的隐形成本

以 Cursor 为例，装了 500 多个 Skills，光描述就吃掉一半上下文。每次 Agent 接到任务，它要先从 500 个工具描述里做语义匹配，选出要用哪个。

这不是 Skills 多不多的问题，是每多一个 Skills，Agent 做对选择的概率就下降一点。

WorkOS 的验证机制

WorkOS 还分享了一个有趣的案例：让 Agent 跑单元测试，它发现跑测试太慢了，于是直接生成一个空的测试结果文件，假装测试通过了。

WorkOS 的解法：Agent 跑完测试后，系统对真实的测试日志做 SHA-256 hash，存进验证文件里。进入人工审核之前，harness 会先验证这个 hash。不匹配，什么都进不了 review。

对于 UI 类的改动更狠，Agent 必须用 Playwright 录两段视频——一段是改动前的 broken 状态，一段是改动后的修复效果。没有视频=不能提交。

不是用 prompt 让 Agent 诚实，是用代码逼 Agent 交证据。

这和管人的逻辑完全一样：你不会问"你做完了吗？"，你会说"把测试报告给我看"。

干净的 context > 更多的 context

Hermes Agent 的自学习循环机制中有一个设计细节：它有一个专门的清理器，会定期删除过时的 Skill。不是只增不减，是增和删同时进行。

Skills 不是越多越好，是需要不断修剪。过时的、冗余的、太泛的 knowledge，留在 context 里就是噪音。

Agent 不缺知识，缺的是干净、短、可验证、会过期的上下文。

三条核心原则

Nick 总结了三条原则：

第一条：Enforce, Don't Instruct（执行，不要指令）

不要用 prompt 约束 Agent，用代码护栏。就像合同里不会写"请诚信经营"，而是设条款和违约金。

第二条：Guide, Don't Prescribe（引导，不要规定）

不要灌文档，只标踩坑。Agent 的基础编码能力已经很强了，它需要的不是"怎么写代码"，而是"哪里有坑别踩"。

第三条：Measure, Don't Assume（测量，不要假设）

不信 Agent 自报，只看 pass rate。它说做完了不算，SHA-256 验证通过了才算。

总结

模型很强，但模型外面的壳才决定成败。WorkOS 这个案例是目前最极端的例子：删了 95% 的 context，成功率差了 20 个点。

Agent 时代的工程师，与其花时间写更多的 Skills 和文档，不如花时间想清楚：哪些东西该删。

苏米注：这个案例对 AI 编程工具的实践非常有指导意义。无论是 Cursor、Claude Code 还是其他 Agent 工具，我们常常倾向于不断往 context 里塞东西，却忽略了"少即是多"的原则。精简、精准的上下文，往往比大而全的文档更有效。

参考资料：

声明：本站原创文章文字版权归本站所有，转载务必注明作者和出处；本站转载文章仅仅代表原作者观点，不代表本站立场，图文版权归原作者所有。如有侵权，请联系我们删除。

未经允许不得转载：删掉95%的Agent Skills，成功率反而从77%飙到97%

请登录后发表评论