AI 编程能力哪家强？阿里通义千问 Qwen 推 CodeElo 基准，OpenAI o1-mini 夺冠超 90% 人类程序员

作者：故渊 2025-01-04 01:32

阿里通义千问 Qwen 最新推出 CodeElo 基准测试，通过和人类程序员对比的 Elo 评级系统，来评估大语言模型（LLM）的编程水平。

项目背景

大语言模型的 AI 场景应用之一，就是生成、补全代码，只是现阶段评估编程真实能力方面存在诸多挑战。

包括 LiveCodeBench 和 USACO 在内的现有基准测试均存在局限性，缺乏健壮的私有测试用例，不支持专门的判断系统，并且经常使用不一致的执行环境。

CodeElo：借力 CodeForces，打造更精准的 LLM 评估体系

AI在线注：Qwen 研究团队为了解决这些挑战，推出了 CodeElo 基准测试，旨在利用与人类程序员比较的 Elo 评级系统，来评估 LLM 的编程竞赛水平。

CodeElo 的题目来自 CodeForces 平台，该平台以其严格的编程竞赛而闻名，通过直接向 CodeForces 平台提交解决方案，CodeElo 确保了评估的准确性，解决了误报等问题，并支持需要特殊评判机制的题目。此外，Elo 评级系统反映了人类的排名，可以有效比较 LLM 和人类参赛者的表现。

CodeElo 三大核心要素：全面、稳健、标准化

AI 编程能力哪家强？阿里通义千问 Qwen 推 CodeElo 基准，OpenAI o1-mini 夺冠超 90% 人类程序员

CodeElo 基于三个关键要素：

全面的问题选择: 题目按比赛分区、难度级别和算法标签进行分类，提供全面评估。
稳健的评估方法: 提交的代码在 CodeForces 平台上进行测试，利用其特殊评估机制确保准确判断，无需隐藏测试用例，并提供可靠反馈。
标准化的评级计算: Elo 评级系统评估代码的正确性，考虑问题难度，并对错误进行惩罚，激励高质量的解决方案，为评估编码模型提供了细致有效的工具。

测试结果

在对 30 个开源 LLM 和 3 个专有 LLM 进行测试后，OpenAI 的 o1-mini 模型表现最佳，Elo 评分为 1578，超过了 90% 的人类参与者；开源模型中，QwQ-32B-Preview 以 1261 分位居榜首。

AI 编程能力哪家强？阿里通义千问 Qwen 推 CodeElo 基准，OpenAI o1-mini 夺冠超 90% 人类程序员

然而，许多模型在解决简单问题时仍显吃力，通常排名在人类参与者的后 20%。分析显示，模型在数学和实现等类别表现出色，但在动态规划和树形算法方面存在不足。

此外，模型使用 C++ 编码时表现更佳，这与竞技程序员的偏好一致，这些结果突出了 LLM 需要改进的领域。

阿里通义千问发布 Qwen3-Coder-Flash 模型，AI 智能体编程 / 操控浏览器等领域媲美 GPT-4.1 等领先闭源模型

AI在线 8 月 1 日消息，阿里通义千问 Qwen 昨日（7 月 31 日）发布公告，宣布推出 Qwen3-Coder-Flash（全称 Qwen3-Coder-30B-A3B-Instruct）模型，在保持出色的性能和效率基础上，改进智能体编码、智能体浏览器使用及其他基础编码任务性能。官方介绍称该模型具备卓越的智能体能力，在智能体编程 (Agentic Coding)、浏览器使用 (AgenticBrowser-Use)、工具调用 (Tool Use) 等领域，超越当前顶级开源模型，仅略逊于顶配版 Qwen3-Coder-480B-A35B-Instruct, 及 ClaudeSonnet-4、GPT4.1 等领先闭源模型。 AI在线援引官方概述，该模型是因果语言模型，总参数量为 30.5B，激活参数为 3.3B，共有 48 层，专家数为 128 个，激活专家数为 8 个，上下文长度原生支持 262144 个 tokens，使用 Yarn 可扩展到 100 万个 tokens。

8/1/2025 6:55:19 AM 故渊

阿里千问（Qwen）衍生模型数量破 10 万，位居全球开源模型榜首

全球最大 AI 开源社区 Hugging Face 数据显示，截至目前，阿里千问（Qwen）开源大模型的衍生模型数量已突破 10 万，持续领先美国 Llama 等开源模型，稳居全球最大开源模型榜首。

2/25/2025 4:08:38 PM 清源

阿里通义千问 Qwen Code v0.5.0 正式发布，号称让 AI 编程“跳出命令行”

AI在线 12 月 26 日消息，今天下午，通义千问 Qwen 官方公众号发文宣布，Qwen Code v0.5.0 版本更新正式发布。此次更新除了功能增强以外，还标志着 Qwen Code 从“命令行工具”向“开发生态”迈进的关键一步。根据介绍，用户可在终端窗口中同时运行四个 Qwen Code 实例，分别处理不同任务，而不必等待一个对话结束后再开始另一个对话窗口。

12/26/2025 4:50:47 PM 清源

AI 编程能力哪家强？阿里通义千问 Qwen 推 CodeElo 基准，OpenAI o1-mini 夺冠超 90% 人类程序员

项目背景

CodeElo：借力 CodeForces，打造更精准的 LLM 评估体系

CodeElo 三大核心要素：全面、稳健、标准化

测试结果

相关资讯

阿里通义千问发布 Qwen3-Coder-Flash 模型，AI 智能体编程 / 操控浏览器等领域媲美 GPT-4.1 等领先闭源模型

阿里千问（Qwen）衍生模型数量破 10 万，位居全球开源模型榜首

阿里通义千问 Qwen Code v0.5.0 正式发布，号称让 AI 编程“跳出命令行”