10+年产品经理聊聊产品、测测产品,产品人交流学习成长平台,按 Ctrl+D 收藏我们
关于我 留言板 小程序 标签云

苏米客

  • 首页
  • AIGC
    • AI最新动态
    • AI学习教程
    • AI工具集合
    • AI产品百科
    • AI编程开发
    • AI提示词
    • AI开源项目
    • AI智能体
  • Axure
    • Axure动态
    • Axure教程
  • 产品
    • 用户体验
    • 产品设计
    • 苏米杂谈
  • 资源
    • 产品UI组件库
    • 开源图标库
    • 中后台框架
  • 书单
    • AI书籍
    • 用户体验
    • UI视觉
    • 产品研究
    • 其他类型
  • 下载
    • Axure组件
    • Axure原型
    • 文档报告
    • 素材资源
  • 登录
  • 首页
  • AIGC
    • AI最新动态
    • AI学习教程
    • AI工具集合
    • AI产品百科
    • AI编程开发
    • AI提示词
    • AI开源项目
    • AI智能体
  • Axure
    • Axure动态
    • Axure教程
  • 产品
    • 用户体验
    • 产品设计
    • 苏米杂谈
  • 资源
    • 产品UI组件库
    • 开源图标库
    • 中后台框架
  • 书单
    • AI书籍
    • 用户体验
    • UI视觉
    • 产品研究
    • 其他类型
  • 下载
    • Axure组件
    • Axure原型
    • 文档报告
    • 素材资源
当前位置: 首页 » AI开源项目

Hermes Agent 架构深度拆解:三层骨架 + 六大子系统,为什么说它更像 Agent 操作系统

4天前 AI开源项目 220 0

摘要:Hermes 是 Nous Research 开源的 Agent 框架,GitHub 上 Stars 破了 8 万。它的核心理念只有一句话:与你共同成长。不是"帮你完成任务",是"和你一起变强"。


原来我们开发智能体,我陆续使用了不少 Agent 框架,AutoGPT、LangGraph、AutoGen……翻来翻去,总觉得差点意思。要么是把 LLM 包一层就叫 Agent,要么是把 Prompt 写复杂点就叫"规划",落地的时候一跑就露馅。

直到翻到 Hermes Agent,才觉得这东西认真在做工程。

Hermes 是 Nous Research 开源的 Agent 框架,GitHub 上 Stars 破了 8 万,多家大厂内部也在研究这个架构。它的核心理念只有一句话:与你共同成长。不是"帮你完成任务",是"和你一起变强"。

一、先说一个根本问题

为什么大多数 Agent 用着用着就觉得"不够用"?原因其实很简单——它们本质上是无状态的。

每次对话重新开始,之前聊过什么、用过哪些工具、犯过什么错,一概不记得。就像你每天上班,同事都忘了你昨天说过的话,还得重新介绍一遍自己。

这带来了三个实际问题:

  1. 没有积累。你教它怎么操作你们公司的内部系统,下次还得再教一遍。每次对话都在消耗同样的 Token,做同样的事情。
  2. 没有自检。它不知道自己哪次做对了、哪次做错了,更不会主动改进。出了问题只能靠你发现,靠你纠正。
  3. 上下文管理混乱。一旦对话稍微长一点,它开始"忘事"。要么把所有历史塞进 Context 导致 Token 爆炸,要么截断历史导致前后矛盾。

这三个问题,Hermes 的设计目标就是一一解决它们。

二、整体架构:三层骨架,六个系统

我习惯把 Hermes 的架构理解为三层结构,每一层对应一种能力。

Hermes 三层架构图

第一层:感知层(Perception)

负责"看懂世界"。用户发来的消息、当前对话的上下文、外部 API 返回的数据,都在这一层被消化。它做的事情是:这个输入是什么意思?用户真正想要的是什么?当前状态是什么?

第二层:决策层(Cognition)

负责"想清楚该做什么"。任务拆解在这里发生,规划在这里生成,记忆在这里被调取。这层是整个 Agent 的"大脑",也是 Hermes 最花心思的地方。

第三层:执行层(Action)

负责"真正把事做完"。调用工具、操作文件、访问 API、执行代码——这些都在执行层完成。大多数 Agent 框架把这层做得很薄,但 Hermes 在这里加了相当重的工程保障。

六个子系统

三层之上,Hermes 定义了六个子系统,把整个运行链路串起来:

  • 用户消息触发器:接收输入,同时触发技能创建流程和轮次计数
  • 周期性 Nudge(提示机制):这是 Hermes 的一个核心创新——每执行到一定轮次,系统会自动产生一个"该复盘了"的内部信号,把学习从用户要主动触发变成 Agent 自己的本能
  • 后台复盘(Background Review):独立的守护进程,异步运行,专门做总结和分析,完全不阻塞主对话流程
  • 双文件存储:本地文件加云端备份,确保记忆能真正持久化
  • 全息记忆(Holographic Memory):长期的、结构化的知识存储
  • 记忆管理器(Memory Manager):短期记忆的调度中枢

这六个系统的分工,是 Hermes 和大多数 Agent 框架最大的不同——它是一套完整的、有分工的操作系统,而不是一个被 Prompt 驱动的脚本。

三、记忆系统:四层设计,各司其职

如果说架构是骨骼,记忆系统就是 Hermes 的血液。

Hermes 四层记忆系统

很多 Agent 框架说自己有"记忆",实际上不过是把聊天历史扔进 Context,或者用个向量数据库做召回。这种方式有个致命问题:随着使用时间增长,它反而会越来越乱。什么都往里存,什么都要检索,结果信噪比越来越低。

Hermes 的记忆系统是分层的,每一层解决不同的问题。

第一层:提示词记忆(Prompt Memory)

这是最核心的一层,对应两个文件:

  • MEMORY.md:存储系统对自身的认知,比如它掌握了哪些技能、有哪些操作规范
  • USER.md:存储用户画像,比如用户的习惯、偏好、常用的工作流

每次对话启动时,这两个文件会作为"冻结快照"注入到 Context 里。容量被严格限制在约 3575 字符——不是技术限制,是主动控制。这层的逻辑是:把最重要的东西固定住,保证每次对话都有一个稳定的"底座"。

第二层:会话归档与检索(Session Archive)

这一层处理"冷数据"。历史对话被存进 SQLite,并启用了 FTS5 全文检索。当前对话需要引用历史信息时(比如"上周我们讨论过的那个方案"),系统按需检索,用 LLM 做摘要,把精炼后的内容注入上下文。

这个设计的精妙之处在于:不是把历史对话全部召回,而是只取你现在需要的那一部分,并且以摘要形式注入,而不是原文复现。Token 消耗大幅降低,同时信息密度提高了。

第三层:技能记忆(Skill Memory)

这是程序性记忆,记录的是"怎么做",而不是"发生了什么"。

当一次任务复杂度超过一定阈值(比如工具调用超过 5 次),系统会自动把这次任务的执行过程提炼成一个 Skill 文档,遵循 agentskills.io 的标准格式,保存为 Markdown 文件。

下次遇到类似任务,Agent 可以直接调用这个 Skill,而不是重新摸索。随着使用积累,这些 Skill 还会通过"补丁"方式迭代更新——用得越多,越精准。这才是"与你共同成长"这句话真正落地的地方。

第四层:外部记忆提供者

这是扩展接口,支持接入 Honcho、Mem0 等外部服务,做更深度的用户建模。对于需要长期追踪用户偏好、行为模式的场景,这一层提供了扩展空间。

四层加起来,Hermes 的记忆系统是有梯度的:高频核心信息放顶层,历史数据按需检索,技能经验结构化沉淀,深度建模留给专业工具。不是什么都往一个地方塞,而是各司其职。

四、技能与规划系统:闭合学习回路

学会了怎么记忆,接下来说 Hermes 怎么"变聪明"。

闭合学习回路

Hermes 的技能系统形成了一个完整的闭合回路:执行 → 评估 → 提炼 → 进化

每执行 15 次工具调用,系统会自动做一次自检,评估这段时间的操作是否达到预期效果。如果有值得提炼的经验,就生成或更新对应的 Skill 文档。如果之前的 Skill 有不准确的地方,会以"补丁"形式修正,而不是覆盖重写。

这个设计避免了两个常见的坑:一是"学了就忘",每次任务的经验都能沉淀下来;二是"一学定终身",Skill 会持续迭代,不会因为早期经验不准确就永远跑偏。

渐进式披露

随着使用时间增长,Skill 会越来越多,如果每次都全部加载,Token 消耗会指数级增长。

Hermes 的解法是渐进式披露:默认只加载 Skill 的摘要版本,只有在真正需要执行某个 Skill 的时候,才加载完整的步骤。

这是一个很实用的工程细节,真正在生产环境里跑过 Agent 的人会懂这个设计有多重要。

规划引擎(Planner)

很多 Agent 的"规划"其实是假的——把任务描述扔给模型,让它生成一个步骤列表,然后按顺序执行。这种方式在任务稍微复杂一点、中途出现意外的情况下,成功率非常低。

Hermes 的 Planner 支持 Plan → Execute → Replan 的动态循环。不是一次性输出计划就完事,而是执行过程中持续观察结果,一旦发现偏差就重新规划。这才像一个真正"做项目"的人:不是只会写计划,而是会根据实际情况调整计划。

五、工程化:把每个细节都想清楚

架构设计好不代表真的能用。我觉得 Hermes 真正有价值的,是它在工程层面的认真程度。

异步复盘,不打扰用户

Background Review 是一个独立的进程,通过 Fork 机制运行,和主对话流程完全解耦。这意味着:你在和 Agent 对话的时候,它在后台悄悄做总结、提炼技能——但你不会感受到任何延迟。

这不是小细节,这是一个系统能不能真正好用的关键区别。很多 Agent 的"反思"和"总结"是同步执行的,每次都会有一段等待时间,用体验极差。

多平台网关

一套核心代码,通过 Gateway 进程接入 Telegram、Discord、飞书、钉钉等 15 个以上的平台。对于企业落地来说,这个设计价值很大。员工用什么 IM 工具,Agent 就接在哪里,不需要为每个平台单独维护一套逻辑。

灵活的部署方式

支持 Local、Docker、SSH、Modal 等多种后端环境,从 5 美元一个月的 VPS 到 GPU 集群都能跑。这种设计让 Hermes 的使用门槛很低,同时也支持规模化扩展。

五层安全机制

自进化这件事最让人担心的是失控:Agent 自己改自己,边界在哪?Hermes 设计了五层防线:用户授权、操作审批、容器隔离、凭证过滤、注入扫描。每一层针对不同的风险点。

可观测性也是显式设计的——任务执行路径可以被监控和审计,出了问题能追溯。

六、和主流框架比,Hermes 的位置在哪?

Hermes 最大的优势在长期使用场景——需要持续积累经验、需要跨会话保持记忆、需要随着使用变得越来越好用的场景。

它的局限也是真实的:复杂任务的执行路径对用户来说仍然是黑盒,在需要完全可解释、每步都要审计的企业合规场景下,目前还需要做不少定制。

七、如果你要落地,三个建议

第一,从单一任务切入,不要一上来做大而全的 Agent。Hermes 的架构支持"从小做大"。先把一个具体的、高频的任务场景跑通,让 Skill 系统积累起来,再逐步扩展。想一下子覆盖所有场景,只会让调试变成噩梦。

第二,优先建设执行能力,而不是对话能力。能帮你真正把事做完,比能和你聊得天花乱坠重要得多。工具调用稳不稳、任务中断能不能恢复、多步骤执行的成功率高不高——这些才是一个 Agent 值不值得用的核心指标。

第三,把业务能力 Skill 化。把你们公司高频的操作流程整理成 Skill 格式,这件事本身就有价值——它会逼着你把之前模糊的、全靠人脑记忆的操作规范显式化。这些 Skill 沉淀下来,是真正可复用、可迭代的资产。

最后说一句

我觉得 Hermes 代表的不只是一个具体框架,而是一种对 Agent 的不同理解:

大模型是大脑,但光有大脑不够。真正能用的 Agent,需要的是一套完整的神经系统——能感知、能规划、能记忆、能执行、能学习、能自我修正。

AI Agent 的竞争,归根结底是工程能力的竞争。状态怎么管、记忆怎么分层、异步怎么处理、失败怎么恢复——这些"枯燥"的工程问题,才是决定上限的地方。


项目地址:https://github.com/NousResearch/Hermes-Agent

声明:本站原创文章文字版权归本站所有,转载务必注明作者和出处;本站转载文章仅仅代表原作者观点,不代表本站立场,图文版权归原作者所有。如有侵权,请联系我们删除。
未经允许不得转载:Hermes Agent 架构深度拆解:三层骨架 + 六大子系统,为什么说它更像 Agent 操作系统
#开源项目 #Hermes #Agent 
收藏 1
WorkBuddy 和 Trae SOLO 到底怎么选?120 小时实测对比
完整解读:斯坦福 AI 年度报告 2026|423 页 15 条核心要点
推荐阅读
  • baoyu-skills:又一个宝藏Skill,面向内容创作者的技能集,支持图文生成、发布与处理
  • Superpowers:用系统化流程让 AI 编码代理更懂你的需求,这套 Superpowers 值得装
  • Agent-Browser:为 AI Agents 优化的浏览器自动化CLI方案,减少 93% 上下文,强!
  • Google TimesFM 开源详解:1000 亿时间点预训练,零样本时间序列预测模型
  • WorldModel-Qwen:小模型也能精确计算,Qwen通过WASM代码执行实现推理时确定性计算
评论 (0)
请登录后发表评论
分类精选
OpenSpec:比 Cursor Plan 更聪明?试试这款让 AI 编码更靠谱的规范驱动工具
8849 6月前
WeKnora:终于等到了腾讯ima的开源知识库框架,用 API 轻松打造本地智能文档检索
7858 7月前
Antigravity-Manager:这个开源神器让你白嫖ClaudeOpus 4.5,Gemini 3!还能接Claude Code等任意平台
6013 3月前
awesome-openclaw-skills:700+ Skills 一条命令装配完成,如何让本地 AI Agent 真正落地可用
5600 2月前
AIRI:你的开源AI女友,让你随时拥有属于自己的 AI VTuber
5349 7月前
iFlow CLI:让命令行终端不止于编程的AI效率开源神器
5268 7月前
Composio:让AI Agent自动完成工作任务,能让AI一键操控你的所有软件
5157 6月前
CompressO:开源免费的视频压缩神器,让你的硬盘瞬间轻松 10 倍
5107 7月前
SpecKit:从想法到代码只需5步?这个开源框架把规范驱动开发变成了现实
4990 6月前
就要创作:从提示词到创作团队,开源 AI 网文写作平台
4654 6月前

文章目录

关注「苏米客」公众号

订阅推送更及时,手机查看更方便
分类排行
1 Google TimesFM 开源详解:1000 亿时间点预训练,零样本时间序列预测模型
2 Claude Code 生成专业图表的 15 个 Skills:覆盖 7 种渲染引擎的完整指南
3 web-access Skill 全解析:让 AI 像真人一样浏览网页的联网操作工具
4 Hermes Web UI 汉化版发布:8 平台统一管理的 AI 对话控制台
5 5个Claude Skill覆盖你的可视化全场景,用文字直接生成图表
6 MemPalace 开源项目详解:本地 AI 记忆系统,96.6% 召回率业界领先
7 DESIGN.md 开源项目详解:5 天 52K Star,用 Markdown 让 AI 写出品牌级 UI
8 Logo Generator Skill:大神开源,让AI帮你快速生成专业级Logo和展示图
9 Miasma:给 AI 爬虫挖坑,反爬虫陷阱
10 Anthropic Agent 三件套全面解读:Claude Code、Cowork、Managed Agents 定位与使用场景详解
©2015-2024 苏米客XMSUMI 版权所有 · WWW.XMSUMI.COM 闽ICP备14005900号-6
微信文章助手 程序库 免费影视APP 免费字体下载 Axure RP 10 免费Axure模板 Axure元件库下载 申请友联