当前位置：首页 » AI最新动态

Kimi K2 模型代码能力评测结果公开，Kimi K2超越DeepSeek拿下全球开源第一

1年前 AI最新动态 5135 0

开源第一，总榜第五，而且紧追GPT 4.5及马斯克Grok 4这样的顶尖闭源模型。

Kimi K2 发布有一段时间了，苏米之前也做过几期关于代码应用的分享，大家可以先回顾一下：

Kimi K2 发布体验：万亿参数能否成为Claude 4 平替？代码、Agent、写作全能选手来了！

手把手教你在VS Code & Cline/RooCode 中使用Kimi K2 模型，配置实录+开发实战体验

手把手教你在Claude Code 中使用Kimi K2 模型，超简单配置教程分享

今天主要是汇总整理了一些近期关于 Kimi 新出的 K2 模型的公开的大模型编程能力评价指标，以及在各大榜单的表现！

Text Arena

Text Arena，这是一个用于训练和评估大型语言模型（LLM）中智能行为的开源平台，包含57+个独特的基于文本的竞争性游戏环境，包括单人、双人和多人设置。

Kimi K2 排名第五，得分和 Claude 4 Opus 相当，其实和 DeepSeek R1 差距也不大。并且各类单项能力也不差，能和一众闭源模型打得有来有回：

连续多轮对话并列第一，o3和Grok 4均为第四；
编程能力第二，和GPT 4.5、Grok 4持平；
应对复杂提示词能力第二，和o3、4o位于同一梯队；

Aider LLM Leaderboards

Aider LLM Leaderboards，测试了 LLM 在编码方面的能力，通过225 个具有挑战性的 Exercism 编码练习，练习题横跨 C++、Go、Java、JavaScript、Python 和 Rust。

从数据结果上，排名好于 DeepSeek R1，与 Qwen3-235B-A22B 编程水平相当，整体来说，与 o3-mini-high、claude-3.7-sonnet 没差多少。

Kimi K2 热度

K2过去一周是真热啊，公开可查战绩包括但不限于下面这些：

从实打实的数据来看，发布这一周里，Kimi K2在开源社区就获得了相当关注度和下载量。

GitHub标星6K，Hugging Face下载量近12万，这还不算它在中国社区的应用。

甚至由于访问的用户太多了，逼得Kimi官方也出来发公告：

访问量大+模型体积大，导致API过慢。

Kimi K2 体验

目前，官网已经上线，可以直接体验K2新模型：

API也在同步开放申请，而且新账号激活后赠送 15 元的使用额度的权益还在，不过由于人数过多，速率会稍微慢点，可以耐心等待也可以充钱解锁。

总结

总的来说，Kimi K2代码能力要略好于 DeepSeek R1，在 Claude 3.7 ~ Claude 4.0 的水平之间。整体审美能力偏弱，但工具调用很强，更适合和 Claude Code 搭配做一个平替。

一直以来开源=性能弱的刻板印象正在被打破，Kimi K2的开源模型已经越来越厉害了，不仅榜单上的整体排名在上升，而且分数差距也越来越小。

未来开源击败闭源将变得越来越普遍。TOP 10中唯二开源、且都是国产模型的含金量还在上升。

相关链接

Kimi 官网地址：https://kimi.moonshot.cn/

API 申请平台：https://platform.moonshot.cn/console/account

Hugging Face：https://huggingface.co/moonshotai/Kimi-K2-Instruct

Github：https://github.com/MoonshotAI/Kimi-K2

Text Arena地址：https://lmarena.ai/leaderboard/text/overall

Aider LLM Leaderboards地址：https://aider.chat/docs/leaderboards/

声明：本站原创文章文字版权归本站所有，转载务必注明作者和出处；本站转载文章仅仅代表原作者观点，不代表本站立场，图文版权归原作者所有。如有侵权，请联系我们删除。

未经允许不得转载：Kimi K2 模型代码能力评测结果公开，Kimi K2超越DeepSeek拿下全球开源第一

#Kimi K2 #代码能力 #开源模型 #Text Arena

请登录后发表评论

Kimi K2 模型代码能力评测结果公开，Kimi K2超越DeepSeek拿下全球开源第一

Text Arena

Aider LLM Leaderboards

Kimi K2 热度

Kimi K2 体验

总结

文章目录

关注「苏米客」公众号