Kimi K2 发布有一段时间了,苏米之前也做过几期关于代码应用的分享,大家可以先回顾一下:
Kimi K2 发布体验:万亿参数能否成为Claude 4 平替?代码、Agent、写作全能选手来了!
手把手教你在VS Code & Cline/RooCode 中使用Kimi K2 模型,配置实录+开发实战体验
手把手教你在Claude Code 中使用Kimi K2 模型,超简单配置教程分享
今天主要是汇总整理了一些近期关于 Kimi 新出的 K2 模型的公开的大模型编程能力评价指标,以及在各大榜单的表现!
Text Arena
Text Arena,这是一个用于训练和评估大型语言模型(LLM)中智能行为的开源平台,包含57+个独特的基于文本的竞争性游戏环境,包括单人、双人和多人设置。

Kimi K2 排名第五,得分和 Claude 4 Opus 相当,其实和 DeepSeek R1 差距也不大。并且各类单项能力也不差,能和一众闭源模型打得有来有回:
-
连续多轮对话并列第一,o3和Grok 4均为第四;
-
编程能力第二,和GPT 4.5、Grok 4持平;
-
应对复杂提示词能力第二,和o3、4o位于同一梯队;
Aider LLM Leaderboards
Aider LLM Leaderboards,测试了 LLM 在编码方面的能力,通过225 个具有挑战性的 Exercism 编码练习,练习题横跨 C++、Go、Java、JavaScript、Python 和 Rust。

从数据结果上,排名好于 DeepSeek R1,与 Qwen3-235B-A22B 编程水平相当,整体来说,与 o3-mini-high、claude-3.7-sonnet 没差多少。
Kimi K2 热度
K2过去一周是真热啊,公开可查战绩包括但不限于下面这些:
从实打实的数据来看,发布这一周里,Kimi K2在开源社区就获得了相当关注度和下载量。
GitHub标星6K,Hugging Face下载量近12万,这还不算它在中国社区的应用。

甚至由于访问的用户太多了,逼得Kimi官方也出来发公告:
访问量大+模型体积大,导致API过慢。
Kimi K2 体验
目前,官网已经上线,可以直接体验K2新模型:

API也在同步开放申请,而且新账号激活后赠送 15 元的使用额度的权益还在,不过由于人数过多,速率会稍微慢点,可以耐心等待也可以充钱解锁。

总结
总的来说,Kimi K2代码能力要略好于 DeepSeek R1,在 Claude 3.7 ~ Claude 4.0 的水平之间。整体审美能力偏弱,但工具调用很强,更适合和 Claude Code 搭配做一个平替。
一直以来开源=性能弱的刻板印象正在被打破,Kimi K2的开源模型已经越来越厉害了,不仅榜单上的整体排名在上升,而且分数差距也越来越小。
未来开源击败闭源将变得越来越普遍。TOP 10中唯二开源、且都是国产模型的含金量还在上升。
相关链接
Kimi 官网地址:https://kimi.moonshot.cn/
API 申请平台:https://platform.moonshot.cn/console/account
Hugging Face:https://huggingface.co/moonshotai/Kimi-K2-Instruct
Github:https://github.com/MoonshotAI/Kimi-K2
Text Arena地址:https://lmarena.ai/leaderboard/text/overall
Aider LLM Leaderboards地址:https://aider.chat/docs/leaderboards/