前言
月之暗面正式上线并开源了新模型 Kimi K2.6。从官方公布的 benchmark 来看,代码能力追平或者超越 GPT 5.4 和 Opus 4.6,非常能打。当然与 A 厂刚发布的 Mythos 和 Opus 4.7 还有差距。

开源和闭源模型整体对比:

基准测试成绩
在多个主流基准上,Kimi K2.6 拿下开源最好成绩:
- HLE(含工具):54.0
- SWE-Bench Pro:58.6
- SWE-bench 多语言:76.7
- BrowseComp:83.2
- Toolathlon:50.0
- Charxiv(含 Python):86.7
- Math Vision(含 Python):93.2

访问方式
- 模型已上线 Kimi.com 的对话模式与智能体模式
- 生产级编程场景可搭配 Kimi Code 使用:https://kimi.com/code
- API 接入:https://platform.moonshot.ai
- 技术博客:https://kimi.com/blog/kimi-k2-6
- 模型权重与代码:HuggingFace

长周期编程能力
Kimi K2.6 在长周期编程任务上有明显提升,支持跨语言(Rust、Go、Python)和跨任务类型(前端、DevOps、性能优化)的稳定泛化。
官方实测案例一:在 Mac(M3 max)上本地部署 Qwen3.5-0.8B 模型,并用 Zig 语言实现推理优化。整个过程共调用工具 4000 余次,持续执行超过 12 小时,经历 14 次迭代,最终将吞吐量从约 15 tokens/sec 提升至约 193 tokens/sec,比 LM Studio 快约 20%。

官方实测案例二:自主重构一个有 8 年历史的开源金融撮合引擎 exchange-core。执行历时 13 小时,遍历 12 种优化策略,调用工具逾 1000 次,精确修改超过 4000 行代码。模型分析了 CPU 和内存火焰图,定位瓶颈后重新设计了核心线程拓扑结构(从 4ME+2RE 调整为 2ME+1RE)。最终,中等吞吐量提升 185%(0.43 MT/s 到 1.24 MT/s),峰值吞吐量提升 133%(1.23 MT/s 到 2.86 MT/s)。

前端生成能力
在编程能力基础上,Kimi K2.6 可以从简单提示词直接生成完整前端界面,包括带视觉设计的 hero 区块、滚动触发动效、WebGL 着色器、GSAP+Framer Motion 动画以及 Three.js 三维效果。
在图像和视频生成工具的配合下,模型还能生成视觉风格统一的配套素材。此外,K2.6 已延伸到轻量全栈开发,覆盖用户认证、交互逻辑到数据库操作(如事务记录、会话管理)的完整链路。
月之暗面建立了内部基准 Kimi Design Bench,分为四个类别:视觉输入任务、落地页构建、全栈应用开发和创意编程。与 Google AI Studio 对比,Kimi K2.6 在各类别均表现良好。
智能体集群架构
Kimi K2.6 的智能体集群架构在 K2.5 研究预览版基础上做了大幅扩展:并发子智能体数量从 100 个扩展到 300 个,协同步骤数从 1500 步扩展到 4000 步。
集群可以将不同能力的智能体组合调度,包括广度搜索与深度研究的叠加、大规模文档分析与长文写作的融合,以及多格式内容的并行生成。单次自主运行即可输出文档、网页、幻灯片、表格等多种形式的完整交付物。
集群还支持将高质量文件(PDF、表格、PPT、Word 文档)转化为可复用的技能,保留原始文档的结构和格式特征,供后续任务复现。
持续自主运行
Kimi K2.6 为 OpenClaw、Hermes Agent 等智能体提供底层支持,支持跨应用、全天候的持续运行。
在官方给出的一个内部案例中,月之暗面 RL 基础设施团队将一个基于 K2.6 的智能体连续运行了 5 天,期间该智能体自主处理监控告警、事故响应和系统运维,完整覆盖从告警触发到问题解决的全流程。

月之暗面内部评测套件 Claw Bench 涵盖编程任务、即时通讯生态集成、信息研究与分析、定时任务管理和记忆调用五个领域,K2.6 在全部指标上均明显优于 K2.5,尤其在无人监督的持续运行场景中提升更为突出。
开放智能体生态:Claw Groups
在 K2.6 编排能力的基础上,月之暗面推出 Claw Groups(研究预览版)。
Claw Groups 支持异构生态:用户可以接入来自任意设备、运行任意模型的智能体,每个智能体携带各自的专属工具、技能和持久化记忆上下文,无论部署在本地笔记本、移动设备还是云端实例,均可无缝接入同一协作空间。
K2.6 在集群中担任动态协调者,根据智能体的技能图谱和可用工具进行任务分配,并在某个智能体失败或卡住时自动接管,重新分配任务或拆解子任务,管理从启动到验收的完整交付生命周期。
目前,月之暗面已将 Claw Groups 用于自身的内容生产和发布工作,由 Demo Maker、Benchmark Maker、社媒智能体、视频制作智能体等专项智能体协作完成端到端的内容生产流程,K2.6 负责统筹协调,各智能体之间共享中间成果。
总结
Kimi K2.6 的发布标志着开源模型在编程能力上达到了新的高度。从长周期编程到前端生成,从智能体集群到持续自主运行,K2.6 展现了全面的能力提升。尤其是 Claw Groups 的推出,为开放智能体生态提供了新的可能性。
苏米注:Kimi K2.6 的开源策略值得关注。相比闭源模型,开源版本让更多开发者和企业能够基于此构建自己的应用。长周期编程能力的提升尤其实用——12 小时持续执行、4000 次工具调用,这意味着可以处理真正复杂的工程任务,而不仅仅是简单的代码片段生成。对于使用 OpenClaw、Hermes Agent 等框架的开发者来说,K2.6 提供了一个强大的底层模型选择。