AI在线 AI在线

AI 编程能力哪家强?阿里通义千问 Qwen 推 CodeElo 基准,OpenAI o1-mini 夺冠超 90% 人类程序员

阿里通义千问 Qwen 最新推出 CodeElo 基准测试,通过和人类程序员对比的 Elo 评级系统,来评估大语言模型(LLM)的编程水平。

阿里通义千问 Qwen 最新推出 CodeElo 基准测试,通过和人类程序员对比的 Elo 评级系统,来评估大语言模型(LLM)的编程水平。

项目背景

大语言模型的 AI 场景应用之一,就是生成、补全代码,只是现阶段评估编程真实能力方面存在诸多挑战。

包括 LiveCodeBench 和 USACO 在内的现有基准测试均存在局限性,缺乏健壮的私有测试用例,不支持专门的判断系统,并且经常使用不一致的执行环境。

CodeElo:借力 CodeForces,打造更精准的 LLM 评估体系

AI在线注:Qwen 研究团队为了解决这些挑战,推出了 CodeElo 基准测试,旨在利用与人类程序员比较的 Elo 评级系统,来评估 LLM 的编程竞赛水平。

CodeElo 的题目来自 CodeForces 平台,该平台以其严格的编程竞赛而闻名,通过直接向 CodeForces 平台提交解决方案,CodeElo 确保了评估的准确性,解决了误报等问题,并支持需要特殊评判机制的题目。此外,Elo 评级系统反映了人类的排名,可以有效比较 LLM 和人类参赛者的表现。

CodeElo 三大核心要素:全面、稳健、标准化

AI 编程能力哪家强?阿里通义千问 Qwen 推 CodeElo 基准,OpenAI o1-mini 夺冠超 90% 人类程序员

CodeElo 基于三个关键要素:

  • 全面的问题选择: 题目按比赛分区、难度级别和算法标签进行分类,提供全面评估。

  • 稳健的评估方法: 提交的代码在 CodeForces 平台上进行测试,利用其特殊评估机制确保准确判断,无需隐藏测试用例,并提供可靠反馈。

  • 标准化的评级计算: Elo 评级系统评估代码的正确性,考虑问题难度,并对错误进行惩罚,激励高质量的解决方案,为评估编码模型提供了细致有效的工具。

测试结果

在对 30 个开源 LLM 和 3 个专有 LLM 进行测试后,OpenAI 的 o1-mini 模型表现最佳,Elo 评分为 1578,超过了 90% 的人类参与者;开源模型中,QwQ-32B-Preview 以 1261 分位居榜首。

AI 编程能力哪家强?阿里通义千问 Qwen 推 CodeElo 基准,OpenAI o1-mini 夺冠超 90% 人类程序员

然而,许多模型在解决简单问题时仍显吃力,通常排名在人类参与者的后 20%。分析显示,模型在数学和实现等类别表现出色,但在动态规划和树形算法方面存在不足。

此外,模型使用 C++ 编码时表现更佳,这与竞技程序员的偏好一致,这些结果突出了 LLM 需要改进的领域。

相关资讯

阿里通义千问发布 Qwen3-Coder-Flash 模型,AI 智能体编程 / 操控浏览器等领域媲美 GPT-4.1 等领先闭源模型

AI在线 8 月 1 日消息,阿里通义千问 Qwen 昨日(7 月 31 日)发布公告,宣布推出 Qwen3-Coder-Flash(全称 Qwen3-Coder-30B-A3B-Instruct)模型,在保持出色的性能和效率基础上,改进智能体编码、智能体浏览器使用及其他基础编码任务性能。 官方介绍称该模型具备卓越的智能体能力,在智能体编程 (Agentic Coding)、浏览器使用 (AgenticBrowser-Use)、工具调用 (Tool Use) 等领域,超越当前顶级开源模型,仅略逊于顶配版 Qwen3-Coder-480B-A35B-Instruct, 及 ClaudeSonnet-4、GPT4.1 等领先闭源模型。 AI在线援引官方概述,该模型是因果语言模型,总参数量为 30.5B,激活参数为 3.3B,共有 48 层,专家数为 128 个,激活专家数为 8 个,上下文长度原生支持 262144 个 tokens,使用 Yarn 可扩展到 100 万个 tokens。
8/1/2025 6:55:19 AM
故渊

阿里千问(Qwen)衍生模型数量破 10 万,位居全球开源模型榜首

全球最大 AI 开源社区 Hugging Face 数据显示,截至目前,阿里千问(Qwen)开源大模型的衍生模型数量已突破 10 万,持续领先美国 Llama 等开源模型,稳居全球最大开源模型榜首。
2/25/2025 4:08:38 PM
清源

通义千问 Qwen 免费上线 AI“深入研究”:十几分钟完成数小时任务

通义千问 Qwen 官方公众号昨日(5 月 13 日)发布博文,宣布推出 Deep Research (深入研究),该智能助理系统能够逐步规划复杂的研究任务,综合大量在线信息,并协助用户完成复杂的科研任务。
5/14/2025 10:42:06 AM
故渊
  • 1