当前位置：首页 » AI开源项目

Hermes Agent 架构深度拆解：三层骨架 + 六大子系统，为什么说它更像 Agent 操作系统

4天前 AI开源项目 220 0

摘要：Hermes 是 Nous Research 开源的 Agent 框架，GitHub 上 Stars 破了 8 万。它的核心理念只有一句话：与你共同成长。不是"帮你完成任务"，是"和你一起变强"。

原来我们开发智能体，我陆续使用了不少 Agent 框架，AutoGPT、LangGraph、AutoGen……翻来翻去，总觉得差点意思。要么是把 LLM 包一层就叫 Agent，要么是把 Prompt 写复杂点就叫"规划"，落地的时候一跑就露馅。

直到翻到 Hermes Agent，才觉得这东西认真在做工程。

Hermes 是 Nous Research 开源的 Agent 框架，GitHub 上 Stars 破了 8 万，多家大厂内部也在研究这个架构。它的核心理念只有一句话：与你共同成长。不是"帮你完成任务"，是"和你一起变强"。

一、先说一个根本问题

为什么大多数 Agent 用着用着就觉得"不够用"？原因其实很简单——它们本质上是无状态的。

每次对话重新开始，之前聊过什么、用过哪些工具、犯过什么错，一概不记得。就像你每天上班，同事都忘了你昨天说过的话，还得重新介绍一遍自己。

这带来了三个实际问题：

没有积累。你教它怎么操作你们公司的内部系统，下次还得再教一遍。每次对话都在消耗同样的 Token，做同样的事情。
没有自检。它不知道自己哪次做对了、哪次做错了，更不会主动改进。出了问题只能靠你发现，靠你纠正。
上下文管理混乱。一旦对话稍微长一点，它开始"忘事"。要么把所有历史塞进 Context 导致 Token 爆炸，要么截断历史导致前后矛盾。

这三个问题，Hermes 的设计目标就是一一解决它们。

二、整体架构：三层骨架，六个系统

我习惯把 Hermes 的架构理解为三层结构，每一层对应一种能力。

第一层：感知层（Perception）

负责"看懂世界"。用户发来的消息、当前对话的上下文、外部 API 返回的数据，都在这一层被消化。它做的事情是：这个输入是什么意思？用户真正想要的是什么？当前状态是什么？

第二层：决策层（Cognition）

负责"想清楚该做什么"。任务拆解在这里发生，规划在这里生成，记忆在这里被调取。这层是整个 Agent 的"大脑"，也是 Hermes 最花心思的地方。

第三层：执行层（Action）

负责"真正把事做完"。调用工具、操作文件、访问 API、执行代码——这些都在执行层完成。大多数 Agent 框架把这层做得很薄，但 Hermes 在这里加了相当重的工程保障。

六个子系统

三层之上，Hermes 定义了六个子系统，把整个运行链路串起来：

用户消息触发器：接收输入，同时触发技能创建流程和轮次计数
周期性 Nudge（提示机制）：这是 Hermes 的一个核心创新——每执行到一定轮次，系统会自动产生一个"该复盘了"的内部信号，把学习从用户要主动触发变成 Agent 自己的本能
后台复盘（Background Review）：独立的守护进程，异步运行，专门做总结和分析，完全不阻塞主对话流程
双文件存储：本地文件加云端备份，确保记忆能真正持久化
全息记忆（Holographic Memory）：长期的、结构化的知识存储
记忆管理器（Memory Manager）：短期记忆的调度中枢

这六个系统的分工，是 Hermes 和大多数 Agent 框架最大的不同——它是一套完整的、有分工的操作系统，而不是一个被 Prompt 驱动的脚本。

三、记忆系统：四层设计，各司其职

如果说架构是骨骼，记忆系统就是 Hermes 的血液。

很多 Agent 框架说自己有"记忆"，实际上不过是把聊天历史扔进 Context，或者用个向量数据库做召回。这种方式有个致命问题：随着使用时间增长，它反而会越来越乱。什么都往里存，什么都要检索，结果信噪比越来越低。

Hermes 的记忆系统是分层的，每一层解决不同的问题。

第一层：提示词记忆（Prompt Memory）

这是最核心的一层，对应两个文件：

MEMORY.md：存储系统对自身的认知，比如它掌握了哪些技能、有哪些操作规范
USER.md：存储用户画像，比如用户的习惯、偏好、常用的工作流

每次对话启动时，这两个文件会作为"冻结快照"注入到 Context 里。容量被严格限制在约 3575 字符——不是技术限制，是主动控制。这层的逻辑是：把最重要的东西固定住，保证每次对话都有一个稳定的"底座"。

第二层：会话归档与检索（Session Archive）

这一层处理"冷数据"。历史对话被存进 SQLite，并启用了 FTS5 全文检索。当前对话需要引用历史信息时（比如"上周我们讨论过的那个方案"），系统按需检索，用 LLM 做摘要，把精炼后的内容注入上下文。

这个设计的精妙之处在于：不是把历史对话全部召回，而是只取你现在需要的那一部分，并且以摘要形式注入，而不是原文复现。Token 消耗大幅降低，同时信息密度提高了。

第三层：技能记忆（Skill Memory）

这是程序性记忆，记录的是"怎么做"，而不是"发生了什么"。

当一次任务复杂度超过一定阈值（比如工具调用超过 5 次），系统会自动把这次任务的执行过程提炼成一个 Skill 文档，遵循 agentskills.io 的标准格式，保存为 Markdown 文件。

下次遇到类似任务，Agent 可以直接调用这个 Skill，而不是重新摸索。随着使用积累，这些 Skill 还会通过"补丁"方式迭代更新——用得越多，越精准。这才是"与你共同成长"这句话真正落地的地方。

第四层：外部记忆提供者

这是扩展接口，支持接入 Honcho、Mem0 等外部服务，做更深度的用户建模。对于需要长期追踪用户偏好、行为模式的场景，这一层提供了扩展空间。

四层加起来，Hermes 的记忆系统是有梯度的：高频核心信息放顶层，历史数据按需检索，技能经验结构化沉淀，深度建模留给专业工具。不是什么都往一个地方塞，而是各司其职。

四、技能与规划系统：闭合学习回路

学会了怎么记忆，接下来说 Hermes 怎么"变聪明"。

闭合学习回路

Hermes 的技能系统形成了一个完整的闭合回路：执行 → 评估 → 提炼 → 进化

每执行 15 次工具调用，系统会自动做一次自检，评估这段时间的操作是否达到预期效果。如果有值得提炼的经验，就生成或更新对应的 Skill 文档。如果之前的 Skill 有不准确的地方，会以"补丁"形式修正，而不是覆盖重写。

这个设计避免了两个常见的坑：一是"学了就忘"，每次任务的经验都能沉淀下来；二是"一学定终身"，Skill 会持续迭代，不会因为早期经验不准确就永远跑偏。

渐进式披露

随着使用时间增长，Skill 会越来越多，如果每次都全部加载，Token 消耗会指数级增长。

Hermes 的解法是渐进式披露：默认只加载 Skill 的摘要版本，只有在真正需要执行某个 Skill 的时候，才加载完整的步骤。

这是一个很实用的工程细节，真正在生产环境里跑过 Agent 的人会懂这个设计有多重要。

规划引擎（Planner）

很多 Agent 的"规划"其实是假的——把任务描述扔给模型，让它生成一个步骤列表，然后按顺序执行。这种方式在任务稍微复杂一点、中途出现意外的情况下，成功率非常低。

Hermes 的 Planner 支持 Plan → Execute → Replan 的动态循环。不是一次性输出计划就完事，而是执行过程中持续观察结果，一旦发现偏差就重新规划。这才像一个真正"做项目"的人：不是只会写计划，而是会根据实际情况调整计划。

五、工程化：把每个细节都想清楚

架构设计好不代表真的能用。我觉得 Hermes 真正有价值的，是它在工程层面的认真程度。

异步复盘，不打扰用户

Background Review 是一个独立的进程，通过 Fork 机制运行，和主对话流程完全解耦。这意味着：你在和 Agent 对话的时候，它在后台悄悄做总结、提炼技能——但你不会感受到任何延迟。

这不是小细节，这是一个系统能不能真正好用的关键区别。很多 Agent 的"反思"和"总结"是同步执行的，每次都会有一段等待时间，用体验极差。

多平台网关

一套核心代码，通过 Gateway 进程接入 Telegram、Discord、飞书、钉钉等 15 个以上的平台。对于企业落地来说，这个设计价值很大。员工用什么 IM 工具，Agent 就接在哪里，不需要为每个平台单独维护一套逻辑。

灵活的部署方式

支持 Local、Docker、SSH、Modal 等多种后端环境，从 5 美元一个月的 VPS 到 GPU 集群都能跑。这种设计让 Hermes 的使用门槛很低，同时也支持规模化扩展。

五层安全机制

自进化这件事最让人担心的是失控：Agent 自己改自己，边界在哪？Hermes 设计了五层防线：用户授权、操作审批、容器隔离、凭证过滤、注入扫描。每一层针对不同的风险点。

可观测性也是显式设计的——任务执行路径可以被监控和审计，出了问题能追溯。

六、和主流框架比，Hermes 的位置在哪？

Hermes 最大的优势在长期使用场景——需要持续积累经验、需要跨会话保持记忆、需要随着使用变得越来越好用的场景。

它的局限也是真实的：复杂任务的执行路径对用户来说仍然是黑盒，在需要完全可解释、每步都要审计的企业合规场景下，目前还需要做不少定制。

七、如果你要落地，三个建议

第一，从单一任务切入，不要一上来做大而全的 Agent。Hermes 的架构支持"从小做大"。先把一个具体的、高频的任务场景跑通，让 Skill 系统积累起来，再逐步扩展。想一下子覆盖所有场景，只会让调试变成噩梦。

第二，优先建设执行能力，而不是对话能力。能帮你真正把事做完，比能和你聊得天花乱坠重要得多。工具调用稳不稳、任务中断能不能恢复、多步骤执行的成功率高不高——这些才是一个 Agent 值不值得用的核心指标。

第三，把业务能力 Skill 化。把你们公司高频的操作流程整理成 Skill 格式，这件事本身就有价值——它会逼着你把之前模糊的、全靠人脑记忆的操作规范显式化。这些 Skill 沉淀下来，是真正可复用、可迭代的资产。

最后说一句

我觉得 Hermes 代表的不只是一个具体框架，而是一种对 Agent 的不同理解：

大模型是大脑，但光有大脑不够。真正能用的 Agent，需要的是一套完整的神经系统——能感知、能规划、能记忆、能执行、能学习、能自我修正。

AI Agent 的竞争，归根结底是工程能力的竞争。状态怎么管、记忆怎么分层、异步怎么处理、失败怎么恢复——这些"枯燥"的工程问题，才是决定上限的地方。

项目地址：https://github.com/NousResearch/Hermes-Agent

声明：本站原创文章文字版权归本站所有，转载务必注明作者和出处；本站转载文章仅仅代表原作者观点，不代表本站立场，图文版权归原作者所有。如有侵权，请联系我们删除。

未经允许不得转载：Hermes Agent 架构深度拆解：三层骨架 + 六大子系统，为什么说它更像 Agent 操作系统

请登录后发表评论