AI在线 AI在线

太卷了!专属Coding的新一代Arena榜单来了,有国产模型登上榜首

大模型编程最近太猛了。 自从编码成了大模型的核心能力后,各大模型厂商都卷得要命,从卷模型参数和性能,到卷开发工具链,编码能力的提升,简直是一场军备竞赛。 近几个月以来,以 Claude 4.5、GLM-4.6、kimi-k2 等为代表的编码模型,都具备了执行复杂项目开发,构建真实应用程序的能力。

大模型编程最近太猛了。

自从编码成了大模型的核心能力后,各大模型厂商都卷得要命,从卷模型参数和性能,到卷开发工具链,编码能力的提升,简直是一场军备竞赛。

近几个月以来,以 Claude 4.5、GLM-4.6、kimi-k2 等为代表的编码模型,都具备了执行复杂项目开发,构建真实应用程序的能力。

卷模型能力只是个开始,各大厂商也已全面进军智能编码产品,各类 IDE 产品层出不穷。就连服务套餐也开始卷出「和 AI 砍价」的新花样,智能编程领域逐渐成为了新的红海。

在模型能力飞涨的情况下,业界知名的大模型公共基准测试平台 LMArena 也敏锐地意识到,「问题已经不再是模型能否编写代码,而是它如何端到端构建真实应用程序。」

这个汇集了全球数百万用户真实反馈的「盲测」竞技场,其榜单排名已成为各大 AI 公司新模型宣发时彰显实力的「标配」。

就在今天,LMArena 做出了今年最大的更新,发布了新世代大模型编码评估系统:Code Arena,这可以说是编程大模型能力评估领域的重大事件。

图片

曾经大模型编码的「黄金标准」 WebDev Arena 是首个引入大规模、人机协同的 AI 编码基准测试的榜单。开发者可以观察模型构建真实应用程序、与输出交互并对性能进行投票,使评估过程更具参与性和透明度。

相比于旧时代的 WebDev Arena 编码榜单,Code Arena 从底层重构而成,它不仅评估代码是否能运行,更评估其性能表现、交互自然度,以及对设计意图的忠实程度。

最重要的是,这个新系统测量的是「代码的动态过程」—— 捕捉模型在真实开发条件下如何思考、规划与构建的全过程。这不是静态基准测试。这是在真实世界中由真实 Arena 用户进行的实际评估

Code Arena 的发布,标志着大模型编码评估标准的又一次进化,重塑了大模型评估的标杆。

在这个全新的榜单里,我们惊喜地发现,国产大模型智谱 GLM-4.6 赫然列于榜首,超越了 Gemini 和 Grok,与 Claude、GPT-5 并列排名第一

图片

智谱 GLM-4.6 于 9 月 30 日发布,一登场便以媲美 Claude Sonnet 4 的卓越编码能力,成为彼时的「国内最强 Coding 模型」。

图片

时隔一个半月,GLM-4.6 的 Coding 能力仍能在最新发布的编程评估榜单中,与 Claude、GPT-5 并列第一,持续领跑全球第一梯队,足见其稳定,超前的编码能力。

事实上,其实力早已得到验证。

10 月初,就在 GLM 4.6 发布几天后,编程智能体 Cline 的产品经理 Nick Baumann 发帖表示,根据 Cline 遥测数据对数百万次「diff edits」(代码修改)操作的分析,zAI 的 GLM-4.6 模型达到了 94.9% 的成功率,而 Anthropic 的 Claude Sonnet 4.5 成功率为 96.2%。

图片

他认为,这一数据意义重大,因为就在三个月前,(开放)开源模型与顶尖闭源模型在同类任务上的性能差距还高达 5 到 10 个百分点。而现在,这个差距已经缩小到了「基点」(basis points),表明两者在最困难的编码任务之一上的能力正在迅速趋同。

此外,Baumann 提到 Cline 的社区用户中已经出现了转向使用 GLM-4.6 完成日常工作的热潮。

有趣的是,AI 编程独角兽 Cognition 近期推出的最新 AI 模型 SWE-1.5,被质疑是基于 GLM 4.6 模型进行定制(精调 / 强化学习),并运行在全球最大的 AI 推理芯片公司 Cerebras 的硬件上。

图片

有人对 SWE 1.5 进行了大模型「越狱」,结果模型直接回答自己是智谱 AI 开发的 GLM 大模型。

而值得一提的是,Cerebras 决定将 GLM-4.6 作为默认推荐模型,其在给所有用户的邮件中表示:qwen-3-coder-480b 将于 2025 年 11 月 5 日被停止使用,同时推出 GLM-4.6 作为新的基座模型。

图片

以上 GLM-4.6 的光辉战绩,不仅证明了其作为开源世界「最强 Coding 模型」受到广泛认可,更让业界再次见证了国产大模型的硬核实力。

正如 Cline 产品经理所观察到的,从几个月前的「5 到 10 个百分点」差距,到如今的「基点」之差,这背后是国产力量从「追赶」到「并跑」乃至「领跑」的惊人加速度。

在过去由 Llama 系列主导的开源开放生态中,以 DeepSeek、Qwen、GLM、Kimi 等为代表的中国开源模型,正凭借其卓越的性能和极高的成本效益,成为全球 AI 开发者的新选择。

这,正是国产大模型力量崛起的最佳注脚。

参考链接:

https://x.com/nickbaumann_/status/1973846157886697771

https://x.com/arena/status/1988665199000498369

https://news.lmarena.ai/code-arena/

相关资讯

智谱宣布旗下多款大模型产品降价 其中GLM-4-Plus降价90%

4月24日,智谱BigModel开放平台宣布进入“亿时代”,对旗下多款大模型产品进行价格调整,大幅降低使用门槛,让更多的企业能够以极低成本拥抱大模型技术。 智谱BigModel开放平台此次价格调整涉及多个模型产品。 其中,GLM-4-FlashX模型每亿tokens的价格仅为10元,该模型基于强大的预训练基座,具有超快的推理速度,功能调用能力与GPT-4相当,在数据抽取、生成、翻译等方面表现出色。
4/24/2025 12:00:49 PM
AI在线

GLM-4-32B 与 GLM-Z1-32B 在 OpenRouter 上线,免费开放

清华大学 KEG 实验室(THUDM)研发的 GLM-4-32B 及 GLM-Z1-32B 两款前沿大语言模型(LLM)正式在 OpenRouter 平台上线,且完全免费向全球用户开放。 这一里程碑式的事件标志着高性能 AI 模型的普及迈出了重要一步,为开发者、研究人员及 AI 爱好者提供了强大的工具,以推动人工智能应用的进一步创新。 模型上线:性能强劲,免费开放GLM-4-32B 作为一款拥有320亿参数的通用大语言模型,以其在复杂推理、数学能力及多语言处理方面的卓越表现,成为当前开源 LLM 领域的佼佼者。
4/22/2025 9:00:40 AM
AI在线

最接近GPT-4的国产大模型诞生了

2024 年,国产大模型的第一个重磅消息,来自智谱 AI。在 1 月 16 日举办的 2024 智谱 AI 技术开放日 Zhipu DevDay 上,智谱 AI 正式发布新一代基座大模型「GLM-4」。经历了三个月的技术迭代,GLM-4 相比上一代基座模型 GLM-3 实现了 60% 的性能全面提升,直接逼近 GPT-4。一方面,GLM-4 支持更长的上下文、更强的多模态能力;另一方面,GLM-4 支持更快的推理、更多并发,大大降低了推理成本。同时,GLM-4 也增强了智能体能力,智谱 AI 正式上线了「GLM-4
1/17/2024 3:02:00 PM
机器之心