当前位置：首页 » AI最新动态

SuperCLUE团队：中文大模型基准测评2024年度报告（报告下载）

1年前 AI最新动态 5648 0

2024年无疑是AI大模型发展最为迅猛的一年，各行各业纷纷涌入AI领域，推动了全球范围内前所未有的人工智能浪潮。随着Sora、GPT-4o、o1等大模型的陆续发布，国内大模型领域在2024年展开了一场声势浩大的竞争追逐赛。

SuperCLUE团队持续关注国内外大模型的发展趋势和综合表现，推出了这份《中文大模型基准测评2024年度报告》，有兴趣的朋友可以参阅一下，报告链接已放在文末.

接下来苏米就对报告中的一些关键内容进行梳理和分享：

这张图涵盖了目前国内AI领域各行业、各领域最值得关注的所有大模型项目，为读者提供了一个全面的视角，帮助大家快速了解当前国内大模型的发展格局和重点方向.

本次年度报告聚焦于通用能力测评，测评维度涵盖理科、文科和Hard三大领域，题目均为原创新题，总量达到1325道多轮简答题，确保了测评内容的全面性和创新性.

测评数据选取了SuperCLUE-12月的测评结果，模型则选取了国内外具有代表性的42个大模型在12月份的版本，确保了测评结果的时效性和代表性.

年度总榜展示了各模型在综合测评中的整体表现排名，为读者提供了一个直观的参考，帮助大家了解各模型在通用能力方面的优劣.

年度模型象限则从不同维度对模型进行分类和展示，为读者提供了更为细致的分析视角，便于大家根据具体需求选择合适的模型.

在性价比方面，国产大模型展现出较大的优势.

国产大模型：如DeepSeek-V3、Qwen2.5-72B-Instruct和Qwen2.5-32B-Instruct，在性价比上具有极强的竞争力。这些模型在保持较高能力水平的同时，应用成本极低，展现出友好的可用性，有利于在实际应用中的快速落地.
大部分模型：为了维持较高的能力水平，价格方面仍处于高位。例如，GLM-4-Plus、Qwen-Max-latest、Claude 3.5 Sonnet、Grok-2-1212等模型的价格均在30元/百万Tokens以上，处于中度性价比区间.
推理模型：如o1和o1-preview，虽然展现出很高的能力水平，但在价格方面较其他模型高出数倍，性价比尚有较大的优化空间。降低价格或许成为推理模型广泛应用的前提条件.

在推理效率方面，部分国产模型表现出色，具有很强的竞争力.

国产模型：DeepSeek-V3和Qwen2.5-32B-Instruct在推理速度上表现优异，平均每题推理时间在10秒以内，同时基准得分在60分以上，符合“高效能区”，展现出极强的应用效能.
海外模型：Gemini-2.0-Flash-Exp、Claude 3.5 Sonnet(20241022)、Grok-2-1212和GPT-4o-mini等模型也符合“高效能区”，其中Gemini-2.0-Flash-Exp在推理时间和基准得分的综合效能上表现最为出色，GPT-4o-mini在推理速度上表现最优.
推理模型：以o1-preview为代表的推理模型虽然在基准得分上表现出色，但每题平均推理时间约40秒，综合效能符合“低效能区”。若要拓展更广泛的应用场景，推理模型需要在推理速度上着重提升.

从总体趋势来看，国内外第一梯队大模型在中文领域的通用能力差距正在扩大.

海外模型：以GPT系列模型为代表，从2023年5月至今，经历了GPT3.5、GPT4、GPT4-Turbo、GPT4o、o1等多个版本的迭代升级，持续提升模型能力.
国内模型：也经历了18个月的迭代周期，从2023年5月与海外模型0.12%的差距，缩小至2024年8月的1.29%。但随着o1的发布，差距再次拉大到15.05%.
国产代表性模型：如DeepSeek-V3，经过持续迭代，在中文任务上已经非常接近GPT-4o。在12月测评中，DeepSeek-V3的表现甚至超过了Claude 3.5 Sonnet.
o1推理模型：基于强化学习新范式，突破了80分大关，成为拉大国内外顶尖模型差距的重要技术代表，展现出较大的领先优势.

报告还提供了多个子维度榜单，包括Hard榜单、理科榜单、文科榜单、各维度测评国内TOP3、开源模型榜单、10B以内模型榜单、5B以内端侧模型榜单以及二级细粒度分数清单等，为读者提供了更为详细和全面的参考信息，方便大家根据具体需求和关注点进行深入了解和比较.

总的来说，《中文大模型基准测评2024年度报告》为我们提供了一个全面、深入的视角，帮助我们了解2024年国内外大模型的发展现状、竞争格局以及未来趋势，为AI领域的从业者、研究人员和相关机构提供了宝贵的参考和指导。

报告全文共89页，本文仅展示报告中关键内容，有兴趣的可以下载完整报告

报告下载地址：www.cluebenchmarks.com/superclue_2024

SuperCLUE官网：www.superclueai.com

声明：本站原创文章文字版权归本站所有，转载务必注明作者和出处；本站转载文章仅仅代表原作者观点，不代表本站立场，图文版权归原作者所有。如有侵权，请联系我们删除。

请登录后发表评论

文章目录