太卷了！专属Coding的新一代Arena榜单来了，有国产模型登上榜首

大模型编程最近太猛了。自从编码成了大模型的核心能力后，各大模型厂商都卷得要命，从卷模型参数和性能，到卷开发工具链，编码能力的提升，简直是一场军备竞赛。近几个月以来，以 Claude 4.5、GLM-4.6、kimi-k2 等为代表的编码模型，都具备了执行复杂项目开发，构建真实应用程序的能力。

大模型编程最近太猛了。

自从编码成了大模型的核心能力后，各大模型厂商都卷得要命，从卷模型参数和性能，到卷开发工具链，编码能力的提升，简直是一场军备竞赛。

近几个月以来，以 Claude 4.5、GLM-4.6、kimi-k2 等为代表的编码模型，都具备了执行复杂项目开发，构建真实应用程序的能力。

卷模型能力只是个开始，各大厂商也已全面进军智能编码产品，各类 IDE 产品层出不穷。就连服务套餐也开始卷出「和 AI 砍价」的新花样，智能编程领域逐渐成为了新的红海。

在模型能力飞涨的情况下，业界知名的大模型公共基准测试平台 LMArena 也敏锐地意识到，「问题已经不再是模型能否编写代码，而是它如何端到端构建真实应用程序。」

这个汇集了全球数百万用户真实反馈的「盲测」竞技场，其榜单排名已成为各大 AI 公司新模型宣发时彰显实力的「标配」。

就在今天，LMArena 做出了今年最大的更新，发布了新世代大模型编码评估系统：Code Arena，这可以说是编程大模型能力评估领域的重大事件。

曾经大模型编码的「黄金标准」 WebDev Arena 是首个引入大规模、人机协同的 AI 编码基准测试的榜单。开发者可以观察模型构建真实应用程序、与输出交互并对性能进行投票，使评估过程更具参与性和透明度。

相比于旧时代的 WebDev Arena 编码榜单，Code Arena 从底层重构而成，它不仅评估代码是否能运行，更评估其性能表现、交互自然度，以及对设计意图的忠实程度。

最重要的是，这个新系统测量的是「代码的动态过程」—— 捕捉模型在真实开发条件下如何思考、规划与构建的全过程。这不是静态基准测试。这是在真实世界中由真实 Arena 用户进行的实际评估。

Code Arena 的发布，标志着大模型编码评估标准的又一次进化，重塑了大模型评估的标杆。

在这个全新的榜单里，我们惊喜地发现，国产大模型智谱 GLM-4.6 赫然列于榜首，超越了 Gemini 和 Grok，与 Claude、GPT-5 并列排名第一。

智谱 GLM-4.6 于 9 月 30 日发布，一登场便以媲美 Claude Sonnet 4 的卓越编码能力，成为彼时的「国内最强 Coding 模型」。

时隔一个半月，GLM-4.6 的 Coding 能力仍能在最新发布的编程评估榜单中，与 Claude、GPT-5 并列第一，持续领跑全球第一梯队，足见其稳定，超前的编码能力。

事实上，其实力早已得到验证。

10 月初，就在 GLM 4.6 发布几天后，编程智能体 Cline 的产品经理 Nick Baumann 发帖表示，根据 Cline 遥测数据对数百万次「diff edits」（代码修改）操作的分析，zAI 的 GLM-4.6 模型达到了 94.9% 的成功率，而 Anthropic 的 Claude Sonnet 4.5 成功率为 96.2%。