AI在线 AI在线

AI 编程能力哪家强?阿里通义千问 Qwen 推 CodeElo 基准,OpenAI o1-mini 夺冠超 90% 人类程序员

阿里通义千问 Qwen 最新推出 CodeElo 基准测试,通过和人类程序员对比的 Elo 评级系统,来评估大语言模型(LLM)的编程水平。

阿里通义千问 Qwen 最新推出 CodeElo 基准测试,通过和人类程序员对比的 Elo 评级系统,来评估大语言模型(LLM)的编程水平。

项目背景

大语言模型的 AI 场景应用之一,就是生成、补全代码,只是现阶段评估编程真实能力方面存在诸多挑战。

包括 LiveCodeBench 和 USACO 在内的现有基准测试均存在局限性,缺乏健壮的私有测试用例,不支持专门的判断系统,并且经常使用不一致的执行环境。

CodeElo:借力 CodeForces,打造更精准的 LLM 评估体系

AI在线注:Qwen 研究团队为了解决这些挑战,推出了 CodeElo 基准测试,旨在利用与人类程序员比较的 Elo 评级系统,来评估 LLM 的编程竞赛水平。

CodeElo 的题目来自 CodeForces 平台,该平台以其严格的编程竞赛而闻名,通过直接向 CodeForces 平台提交解决方案,CodeElo 确保了评估的准确性,解决了误报等问题,并支持需要特殊评判机制的题目。此外,Elo 评级系统反映了人类的排名,可以有效比较 LLM 和人类参赛者的表现。

CodeElo 三大核心要素:全面、稳健、标准化

AI 编程能力哪家强?阿里通义千问 Qwen 推 CodeElo 基准,OpenAI o1-mini 夺冠超 90% 人类程序员

CodeElo 基于三个关键要素:

  • 全面的问题选择: 题目按比赛分区、难度级别和算法标签进行分类,提供全面评估。

  • 稳健的评估方法: 提交的代码在 CodeForces 平台上进行测试,利用其特殊评估机制确保准确判断,无需隐藏测试用例,并提供可靠反馈。

  • 标准化的评级计算: Elo 评级系统评估代码的正确性,考虑问题难度,并对错误进行惩罚,激励高质量的解决方案,为评估编码模型提供了细致有效的工具。

测试结果

在对 30 个开源 LLM 和 3 个专有 LLM 进行测试后,OpenAI 的 o1-mini 模型表现最佳,Elo 评分为 1578,超过了 90% 的人类参与者;开源模型中,QwQ-32B-Preview 以 1261 分位居榜首。

AI 编程能力哪家强?阿里通义千问 Qwen 推 CodeElo 基准,OpenAI o1-mini 夺冠超 90% 人类程序员

然而,许多模型在解决简单问题时仍显吃力,通常排名在人类参与者的后 20%。分析显示,模型在数学和实现等类别表现出色,但在动态规划和树形算法方面存在不足。

此外,模型使用 C++ 编码时表现更佳,这与竞技程序员的偏好一致,这些结果突出了 LLM 需要改进的领域。

相关资讯

阿里千问(Qwen)衍生模型数量破 10 万,位居全球开源模型榜首

全球最大 AI 开源社区 Hugging Face 数据显示,截至目前,阿里千问(Qwen)开源大模型的衍生模型数量已突破 10 万,持续领先美国 Llama 等开源模型,稳居全球最大开源模型榜首。
2/25/2025 4:08:38 PM
清源

通义千问 Qwen 免费上线 AI“深入研究”:十几分钟完成数小时任务

通义千问 Qwen 官方公众号昨日(5 月 13 日)发布博文,宣布推出 Deep Research (深入研究),该智能助理系统能够逐步规划复杂的研究任务,综合大量在线信息,并协助用户完成复杂的科研任务。
5/14/2025 10:42:06 AM
故渊

720亿参数大模型都拿来开源了!通义千问开源全家桶,最小18亿模型端侧都能跑

目前,通义千问开源全家桶已经有了 18 亿、70 亿、140 亿、720 亿参数量的 4 款基础开源模型,以及跨语言、图像、语音等多种模态的多款开源模型。「Qwen-72B 模型将于 11 月 30 日发布。」前几天,X 平台上的一位网友发布了这样一则消息,消息来源是一段对话。他还说,「如果(新模型)像他们的 14B 模型一样,那将是惊人的。」有位网友转发了帖子并配文「千问模型最近表现不错」。这句话里的 14B 模型指的是阿里云在 9 月份开源的通义千问 140 亿参数模型 Qwen-14B。当时,这个模型在多个权
12/1/2023 3:07:00 PM
机器之心
  • 1