10+年产品经理聊聊产品、测测产品,产品人交流学习成长平台,按 Ctrl+D 收藏我们
关于我 留言板 小程序 标签云

苏米客

  • 首页
  • AIGC
    • AI最新动态
    • AI学习教程
    • AI工具集合
    • AI产品百科
    • AI编程开发
    • AI提示词
    • AI开源项目
    • AI智能体
  • Axure
    • Axure动态
    • Axure教程
  • 产品
    • 用户体验
    • 产品设计
    • 苏米杂谈
  • 资源
    • 产品UI组件库
    • 开源图标库
    • 中后台框架
  • 书单
    • AI书籍
    • 用户体验
    • UI视觉
    • 产品研究
    • 其他类型
  • 下载
    • Axure组件
    • Axure原型
    • 文档报告
    • 素材资源
  • 登录
  • 首页
  • AIGC
    • AI最新动态
    • AI学习教程
    • AI工具集合
    • AI产品百科
    • AI编程开发
    • AI提示词
    • AI开源项目
    • AI智能体
  • Axure
    • Axure动态
    • Axure教程
  • 产品
    • 用户体验
    • 产品设计
    • 苏米杂谈
  • 资源
    • 产品UI组件库
    • 开源图标库
    • 中后台框架
  • 书单
    • AI书籍
    • 用户体验
    • UI视觉
    • 产品研究
    • 其他类型
  • 下载
    • Axure组件
    • Axure原型
    • 文档报告
    • 素材资源
当前位置: 首页 » AI产品百科

大模型应用全景图:Prompt Engineering、Context Engineering与Harness Engineering

1小时前 AI产品百科 9 0

OpenAI 曾发布一篇技术博客:3 个工程师、5 个月,产出了 100 万行生产级代码。没有一行是人手写的。通过约 1500 个 Pull Request 完成了一款内部产品的构建和迭代,每人每天平均合并 3.5 个 PR。

很多人第一反应是:他们用了什么特殊的模型?答案是:没有。用的就是市面上所有人都能用的 AI。那差距到底在哪?

image1

AI 应用的三个阶段

过去两年,"学会用 AI"这件事经历了三个完全不同的阶段。很多人卡在某一个阶段里浑然不觉,还以为自己已经用得很溜了。

第一阶段:Prompt Engineering(2024年)

这是大多数人最熟悉的阶段。核心问题只有一个:怎么措辞?你在 ChatGPT 里反复调整问题的表达方式,加上"请用专业语气"、"分三步回答我"、"不要废话直接给结论"这类修饰语。整个交互模式是一问一答,你在乎的是那一次回答的质量。

第二阶段:Context Engineering(2025年)

到了这个阶段,大家意识到光靠一次好提示是不够的。真正的功夫在于:在 AI 运行的过程中,在合适的时机输入合适的内容。先给它看相关文档,再给它看你的需求,再给它看历史案例,最后才让它动手——这样的效果,比一次性把所有要求堆在一个提示词里要好得多。

2025 年 6 月,前 OpenAI 联合创始人 Andrej Karpathy 发了一条推文,为这个概念正式命名:"工业级 LLM 应用的核心功夫,是上下文工程——精心填充上下文窗口,让模型在每一步都拿到恰好足够的信息。"

三个月后,Anthropic 发布了系统性的 Context Engineering 方法论博文,这个概念从一条推文变成了完整的工程实践。

第三阶段:Harness Engineering(2026年)

即便把 Context Engineering 做到极致,很多复杂任务还是做不了。问答没问题,简单任务没问题。但要让 AI 独立完成一个完整功能的开发、测试、集成?大概率半途而废,或者产出一堆看起来像那么回事、实则漏洞百出的东西。

2026 年 2 月,HashiCorp 联合创始人 Mitchell Hashimoto 在他的博客里给出了答案,并正式命名了这个新概念——Harness Engineering。

他的定义值得反复咀嚼:每当你发现 Agent 犯了一个错误,你就花时间工程化一个解决方案,让这个错误永远不再发生。

注意,这里说的不是"写一行提示词让 AI 下次注意"。而是用代码、配置、自动化脚本,把约束永久固化下来。

它们是包含关系,不是替代关系

很多人看到"Harness Engineering"这个新词,第一反应是"Prompt Engineering 过时了?"完全不是。

Philipp Schmid(Hugging Face 工程师)用了一个很直观的类比:AI 模型是 CPU,上下文窗口是 RAM,而 Harness 就是操作系统。你不会在没有操作系统的 CPU 上直接跑程序——同理,让 AI 在没有 Harness 的环境里"裸跑",效率和可靠性都会大打折扣。

Harness Engineering 的四根支柱

综合 OpenAI、Anthropic 以及大量一线团队的实践,Harness Engineering 可以提炼为四大支柱。

image2

支柱一:代码库即真相源

给 Agent 一份精炼的"项目行军指南",让它每次启动都自动读取。在项目根目录放一个配置文件——Anthropic 体系叫 CLAUDE.md,OpenAI 体系叫 AGENTS.md。AI 每次启动自动读取,获取项目的技术栈、常用命令、编码规范和行为禁区。

核心原则:它应该是地图,而不是百科全书。OpenAI 团队曾尝试把所有信息塞进一个庞大的配置文件,失败了。上下文窗口是稀缺资源,一个 500 行的说明书反而让 AI 不知道哪些信息和当前任务相关。黄金标准是 100 行左右,作为导航目录指向结构化的文档,AI 按需检索具体内容。

Hashimoto 分享了一条维护法则:配置文件里的每一条规则,都应该对应过去一个真实的 AI 错误。从空白开始,每次 AI 犯错就补一条规则,让它越用越聪明。

支柱二:机械化架构约束

用自动化工具把约束刻进执行流程,不依赖 AI 的"自觉性"。配置文件写的是"你应该这样做",是建议。而 Hooks(钩子)执行的是"你必须这样做,否则操作被阻止",是法律。

CLAUDE.md 是建议,Hooks 是法律。建议可以被忽略,法律不行。

三个具体场景:

  • 安全防火墙:AI 准备执行一条清理命令,但路径写错了。PreToolUse Hook 在命令执行前触发,检测到危险模式,10 毫秒内硬性拦截
  • 提交前自检:AI 写完代码准备提交,Hook 自动先跑一遍代码质量检查。发现问题就拦截并反馈给 AI,AI 自动修复后再次尝试提交
  • 任务完成通知:你让 AI 跑一个耗时 15 分钟的任务,然后去泡咖啡。任务完成时,Hook 自动弹出桌面通知

这里有一个反直觉的洞察:给 AI 更多约束,反而能提升它的产出质量。当你约束它"必须用 React 组件、遵循项目的命名规范、通过 Service 层调用后端",它在收窄后的解空间里反而更容易找到正确答案。

支柱三:反馈循环

让 AI 在每一步都能自动获知"做得对不对",而不是做完所有事才发现全错了。Anthropic 的比喻极其精准:AI 的每个新会话开始时没有之前的记忆,就像轮班的工程师没有交接记录。

反馈循环分四个层次:

  • 即时反馈:工具调用前后,自动检查格式、安全、语法
  • 构建反馈:提交 PR 时,CI/CD 自动跑测试和代码检查
  • 运行时反馈:部署后,日志和监控捕获性能问题
  • 评审反馈:功能完成后,独立评估者检查设计层面的遗漏

最前沿的探索是 Anthropic 提出的 GAN 式三 Agent 架构:Planner 负责把模糊需求扩展为可执行规格,Generator 负责实现,Evaluator 负责独立评估。

他们发现了一个根本性问题:当 AI 被要求评估自己的工作时,它会表现出不合理的自信和宽容。解决方案不是"让 AI 学会自我批评",而是把评估彻底交给独立的角色。

支柱四:熵管理

主动对抗 AI 代码生成带来的渐进式系统退化。这是最容易被忽视的支柱,但可能是 Harness Engineering 里最具原创性的洞察。

三种典型的退化模式:

  • 文档漂移:AI 改了代码,但忘了更新注释。三个月后,另一个 AI 依赖这条注释写了新功能,然后才发现不对
  • 架构侵蚀:项目约定所有数据库查询必须通过 Repository 层。某次 AI 觉得多写两个方法太麻烦,直接在 Controller 层写了 SQL。代码能跑,但这个"先例"一旦出现,下一个 AI 也跟着绕过约束
  • 风格不一致:周一的 AI 用 camelCase,周三的 AI 用 snake_case,周五的又换回去了。三种风格在同一个项目里共存

OpenAI 的解法:把"品味"编码为规则。团队对代码质量的判断标准,不是写在文档里祈祷 AI 遵守,而是写成 linter 规则自动扫描。错误消息本身就是修复指南。

概括是:品味捕获一次,强制执行无限次。

苏米注:熵管理这个概念非常精准。AI 生成的代码不会让程序崩溃,但整个代码库在缓慢退化——注释过时、架构侵蚀、风格不一致。这些问题单独看都不严重,但累积效应是致命的。

一组颠覆直觉的数据

2026 年 3 月,LangChain 做了一个控制变量实验。在 Terminal Bench 2.0 基准测试上,模型完全不换,只调整了三个 Harness 变量:系统提示词、工具配置、中间件 Hooks。

结果:排名从 30 名开外跃升到 Top 5,提升了 13.7 个百分点。作为对比,同期如果通过换一个更强的模型来提升成绩,通常能获得约 6.8 个百分点的提升。

优化 Harness 的效果,是换模型的两倍。

核心公式由此清晰:产出质量 = 模型能力 × Harness 设计水平

标杆案例

项目 团队 核心启示
OpenAI Codex 3 人团队 五大核心原则 + 六层分级架构约束,Harness 是 Agent-First 开发模式的根基
Stripe Minions 企业级 近 500 个 MCP 工具,每周 1300+ PR,Blueprint 机制:AI 动手前先生成计划,人类批准后才执行
LangChain 开源团队 Doom Loop 检测中间件:当 AI 反复修改同一文件却无法通过测试时,自动介入提示重新评估
GStack Garry Tan 纯 Markdown 流程,28 个角色按 Sprint 顺序运行,60 天产出 60 万行代码

工程师角色的变化

Mitchell Hashimoto 这样描述自己现在的角色:"我是软件项目的架构师。我仍然负责代码结构、数据流设计、状态管理。但具体的代码编写,越来越多地交给了 AI。"

用厨师来类比:过去,厨师亲自做每一道菜。现在,厨师负责设计菜单、训练厨房团队、检查每道菜的出品质量。这不是降级,而是升级。

复杂度并没有消失,只是从"写代码的复杂度"转移为"设计环境的复杂度"。而这个新的地方,更适合发挥人类在系统思维上的优势。

几点冷思考

在所有令人兴奋的数字面前,有几点清醒是必要的:

  • 验证缺口:Harness 擅长检查代码是否"合规",但对代码是否"正确"(功能逻辑是否符合业务预期)的验证仍然不够
  • 遗留代码困境:目前几乎所有成功案例都是从零开始的新项目。对于已有数万行遗留代码的系统,如何设计 Harness 使 AI 能在其中安全工作,还没有经过验证的方法论
  • Harness 必须设计成可删除的:今天需要复杂管线才能完成的任务,明天可能一个提示词就搞定了。Vercel 删掉了 80% 的 Agent 工具,效果反而更好

从哪里开始

不需要一步到位搭建复杂的系统。最小可行的起点:

在你最常用的项目里创建一个 CLAUDE.md(或 AGENTS.md)文件,写下三件事:项目用什么技术栈、哪些命令是常用的、哪些文件绝对不能碰。然后在使用过程中,每次 AI 犯错,就把那个错误背后的规则补进去。

从一个 100 行以内的文件开始,随着使用不断积累。这是 Hashimoto 的方法,也是那些做出惊人产出的团队实际在做的事。

真正的门槛从来不是技术,而是思维方式的转变——从"怎么写好一个提示词",到"怎么为 AI 搭建一个好的工作环境"。

参考资料:

  • OpenAI Harness Engineering 博文(2026 年 2 月)
  • Mitchell Hashimoto个人博客(2026年 2 月)
  • Anthropic Context Engineering & Long-Running Agents 系列博文(2025 年 9 月-2026 年 3 月)
  • LangChain Terminal Bench 2.0实验报告(2026年 3 月)
声明:本站原创文章文字版权归本站所有,转载务必注明作者和出处;本站转载文章仅仅代表原作者观点,不代表本站立场,图文版权归原作者所有。如有侵权,请联系我们删除。
未经允许不得转载:大模型应用全景图:Prompt Engineering、Context Engineering与Harness Engineering
#PromptEngineering #ContextEngineering #HarnessEngineering #AI应用 #Agent 
收藏 1
Claude Code /ultrareview 实战:用并行 Multi-Agent 做深度代码审查
DeepSeek TUI 实测:终端里的 AI 编码智能体,2 天 3.5K Star 的开源项目
推荐阅读
  • Kisskh Art:一键把合照变接吻短视频的AI浪漫生成器
  • Generate Prompt AI:免费无限制的AI提示词生成工具,提供AI提示词生成、文本润色、图像转文本等多种AI工具
  • Bahasa AI:全能 AI 助手,集聊天对话、文档阅读、图片识别、PDF 解析等功能于一体
  • SongAI:免费AI歌曲生成器,歌词、旋律、人声一键生成
  • Noodl:AI低代码开发平台,AI辅助开发帮助开发人员和设计人员快速构建全栈应用程序
评论 (0)
请登录后发表评论
分类精选
Picarta:可以查找图片拍摄地点的AI识图软件,使用AI搜索照片拍摄的精确位置
16513 1年前
GPTGirlfriend:AI虚拟女友聊天平台,不受限制的成人角色扮演,AI女友进行成熟的对话
16463 1年前
BeArt:一款免费且无水印的的在线AI换脸网站,适用于照片、视频和GIF中实现精准换脸
14499 1年前
灵光:蚂蚁集团推出的全模态AI助手App,30秒做应用、实时写图文
13278 5月前
Noiz AI:AI语音克隆工具,一款TTS和视频配音神器
12896 1年前
NiceVoice:又一款免费AI声音克隆,3步克隆你的声音
12750 8月前
嘎嘎降AI:AIGCleaner论文降重工具网站,专门降低文章AI率、查重率的工具
12493 1年前
Unscreen:在线视频和GIF背景抠除工具,不用绿幕轻松完成视频抠像
12476 1年前
抖音即创AI: 一站式智能AI创作管理平台
11094 1年前
Reecho 睿声:免费AI语音克隆与超拟真语音合成平台,用户只需提供一小段声音样本,完成声音的克隆
10962 1年前

文章目录

关注「苏米客」公众号

订阅推送更及时,手机查看更方便
分类排行
1 大模型应用全景图:Prompt Engineering、Context Engineering与Harness Engineering
2 Codex宠物功能上线:让 Agent 的工作状态变得可见可感知
3 千问电脑版上线语音输入法:快捷键全局唤起,动动嘴就能办公
4 Anthropic Project Deal 实验:当 Claude Agent 替你在二手市场砍价
5 ClawEmail 网易出品:为 OpenClaw 和 Hermes 配备专属 AI 工作邮箱
6 Qwen3.6-27B 实测报告:本地模型跑出 GPT-4 水准,27B Dense 架构超越 397B MoE
7 MonkeyCode :在线 AI 编程平台实测,手搓字体预览器和安卓提词器
8 AI操作系统三国杀:Hermes vs OpenClaw vs WorkBuddy 全方位对比评测
9 Hermes Agent vs WorkBuddy:AI 操作系统与办公助手的定位差异详解
10 华为云 OfficeClaw 深度实测:Harness Engineering 新范式下的多 Agent 办公助手
©2015-2024 苏米客XMSUMI 版权所有 · WWW.XMSUMI.COM 闽ICP备14005900号-6
微信文章助手 程序库 免费影视APP 免费字体下载 Axure RP 10 免费Axure模板 Axure元件库下载 申请友联