AI在线 AI在线

AI 编程能力哪家强?阿里通义千问 Qwen 推 CodeElo 基准,OpenAI o1-mini 夺冠超 90% 人类程序员

阿里通义千问 Qwen 最新推出 CodeElo 基准测试,通过和人类程序员对比的 Elo 评级系统,来评估大语言模型(LLM)的编程水平。

阿里通义千问 Qwen 最新推出 CodeElo 基准测试,通过和人类程序员对比的 Elo 评级系统,来评估大语言模型(LLM)的编程水平。

项目背景

大语言模型的 AI 场景应用之一,就是生成、补全代码,只是现阶段评估编程真实能力方面存在诸多挑战。

包括 LiveCodeBench 和 USACO 在内的现有基准测试均存在局限性,缺乏健壮的私有测试用例,不支持专门的判断系统,并且经常使用不一致的执行环境。

CodeElo:借力 CodeForces,打造更精准的 LLM 评估体系

AI在线注:Qwen 研究团队为了解决这些挑战,推出了 CodeElo 基准测试,旨在利用与人类程序员比较的 Elo 评级系统,来评估 LLM 的编程竞赛水平。

CodeElo 的题目来自 CodeForces 平台,该平台以其严格的编程竞赛而闻名,通过直接向 CodeForces 平台提交解决方案,CodeElo 确保了评估的准确性,解决了误报等问题,并支持需要特殊评判机制的题目。此外,Elo 评级系统反映了人类的排名,可以有效比较 LLM 和人类参赛者的表现。

CodeElo 三大核心要素:全面、稳健、标准化

AI 编程能力哪家强?阿里通义千问 Qwen 推 CodeElo 基准,OpenAI o1-mini 夺冠超 90% 人类程序员

CodeElo 基于三个关键要素:

  • 全面的问题选择: 题目按比赛分区、难度级别和算法标签进行分类,提供全面评估。

  • 稳健的评估方法: 提交的代码在 CodeForces 平台上进行测试,利用其特殊评估机制确保准确判断,无需隐藏测试用例,并提供可靠反馈。

  • 标准化的评级计算: Elo 评级系统评估代码的正确性,考虑问题难度,并对错误进行惩罚,激励高质量的解决方案,为评估编码模型提供了细致有效的工具。

测试结果

在对 30 个开源 LLM 和 3 个专有 LLM 进行测试后,OpenAI 的 o1-mini 模型表现最佳,Elo 评分为 1578,超过了 90% 的人类参与者;开源模型中,QwQ-32B-Preview 以 1261 分位居榜首。

AI 编程能力哪家强?阿里通义千问 Qwen 推 CodeElo 基准,OpenAI o1-mini 夺冠超 90% 人类程序员

然而,许多模型在解决简单问题时仍显吃力,通常排名在人类参与者的后 20%。分析显示,模型在数学和实现等类别表现出色,但在动态规划和树形算法方面存在不足。

此外,模型使用 C++ 编码时表现更佳,这与竞技程序员的偏好一致,这些结果突出了 LLM 需要改进的领域。

相关资讯

阿里通义千问发布 Qwen3-Coder-Flash 模型,AI 智能体编程 / 操控浏览器等领域媲美 GPT-4.1 等领先闭源模型

阿里通义千问发布 Qwen3-Coder-Flash 模型,AI 智能体编程 / 操控浏览器等领域媲美 GPT-4.1 等领先闭源模型

AI在线 8 月 1 日消息,阿里通义千问 Qwen 昨日(7 月 31 日)发布公告,宣布推出 Qwen3-Coder-Flash(全称 Qwen3-Coder-30B-A3B-Instruct)模型,在保持出色的性能和效率基础上,改进智能体编码、智能体浏览器使用及其他基础编码任务性能。 官方介绍称该模型具备卓越的智能体能力,在智能体编程 (Agentic Coding)、浏览器使用 (AgenticBrowser-Use)、工具调用 (Tool Use) 等领域,超越当前顶级开源模型,仅略逊于顶配版 Qwen3-Coder-480B-A35B-Instruct, 及 ClaudeSonnet-4、GPT4.1 等领先闭源模型。 AI在线援引官方概述,该模型是因果语言模型,总参数量为 30.5B,激活参数为 3.3B,共有 48 层,专家数为 128 个,激活专家数为 8 个,上下文长度原生支持 262144 个 tokens,使用 Yarn 可扩展到 100 万个 tokens。
8/1/2025 6:55:19 AM 故渊
阿里千问(Qwen)衍生模型数量破 10 万,位居全球开源模型榜首

阿里千问(Qwen)衍生模型数量破 10 万,位居全球开源模型榜首

全球最大 AI 开源社区 Hugging Face 数据显示,截至目前,阿里千问(Qwen)开源大模型的衍生模型数量已突破 10 万,持续领先美国 Llama 等开源模型,稳居全球最大开源模型榜首。
2/25/2025 4:08:38 PM 清源
阿里通义千问 Qwen Code v0.5.0 正式发布,号称让 AI 编程“跳出命令行”

阿里通义千问 Qwen Code v0.5.0 正式发布,号称让 AI 编程“跳出命令行”

AI在线 12 月 26 日消息,今天下午,通义千问 Qwen 官方公众号发文宣布,Qwen Code v0.5.0 版本更新正式发布。 此次更新除了功能增强以外,还标志着 Qwen Code 从“命令行工具”向“开发生态”迈进的关键一步。 根据介绍,用户可在终端窗口中同时运行四个 Qwen Code 实例,分别处理不同任务,而不必等待一个对话结束后再开始另一个对话窗口。
12/26/2025 4:50:47 PM 清源