AI在线 AI在线

最强开源CodeLLM模型深夜来袭!320亿参数,Qwen2.5-Coder新模型超越GPT-4o

一夜之间,AI编程模型的开源王座易主了! Qwen2.5-Coder-32B正式发布,霸气拿下多个主流基准测试SOTA,彻底登上全球最强开源编程模型宝座。 更重要的是,在代码能力的12个主流基准上,Qwen2.5-Coder-32B与GPT-4o对决,斩获9胜,一举掀翻闭源编程模型的绝对统治。

一夜之间,AI编程模型的开源王座易主了!

图片

Qwen2.5-Coder-32B正式发布,霸气拿下多个主流基准测试SOTA,彻底登上全球最强开源编程模型宝座。

更重要的是,在代码能力的12个主流基准上,Qwen2.5-Coder-32B与GPT-4o对决,斩获9胜,一举掀翻闭源编程模型的绝对统治。

不用一行代码,只要输入最直接、够详细的自然语言prompt,它就能给你整全套:

比如,做个简单的模拟三体运动的HTML网页吧!

最强开源CodeLLM模型深夜来袭!320亿参数,Qwen2.5-Coder新模型超越GPT-4o

生成个game of life的小游戏,也是手拿把掐:

最强开源CodeLLM模型深夜来袭!320亿参数,Qwen2.5-Coder新模型超越GPT-4o

哪怕是完全不懂编程的小白,也能轻松上手。比如我们体验了一把用一句大白话生成计算器:

图片

很快就搞定了,计算器可以直接使用。

图片

还有更多好玩又实用的应用,比如不到20秒生成一个音乐播放器。

图片

做简历也易如反掌:

图片

怪不得开发者们都说,太恐怖了,超越了4o,与Sonnet、o1都能掰手腕

图片

图片

图片

图片

更让人惊喜的是,这次Qwen2.5-Coder上新,共开源0.5B/1.5B/3B/7B/14B/32B共6个尺寸的全系列模型,每种尺寸都取得同规模下SOTA

而且大部分版本都是采用非常宽松的Apache 2.0许可

图片

△蓝色为此次新发布版本

要知道,自从CodeQwen1.5推出以来,该系列模型就成为开发者社区最关注的开源编程模型之一。

9月发布的Qwen2.5-Coder-7B版本,更是一骑绝尘,不少人表示它足以替代GPT-4和Sonnet 3.5成为日常主力工具。

图片

当时还预告了32B的发布,从此,网友一直催更。

图片

这次,32B和更多尺寸的全系列Qwen2.5-Coder如约而至,这个看起来能用code生万物的最强开源代码模型,到底厉害在哪儿呢?

超越GPT-4o,人人都能用

首先,我们为什么关注编程模型?因为代码能力对大模型的推理很重要,大模型对代码的理解通常被认为是其逻辑能力的基础来源之一

代码思维链(program-of-thought) 将复杂问题分解为可执行的代码片段,并且利用代码执行器逐步解决子问题,可以较大程度提升基于大型语言模型的推理能力。

DeepMind斯坦福UC伯克利联手发表的一项研究中提到,使用代码链(Chain of Code),不仅可以提升模型基于代码的推理能力,也给模型自然语言任务、数学计算方面带来积极影响。

图片

https://arxiv.org/abs/2312.04474

Qwen2.5-Coder也采用了类似原理。它基于Qwen2.5基础大模型进行初始化,使用源代码、文本代码混合数据、合成数据等5.5T tokens的数据持续训练,实现了代码生成、代码推理、代码修复等核心任务性能的显著提升。

最新发布中,Qwen2.5-Coder全系列共开源6个尺寸模型,每个规模包含base和Instruct两个版本。

Base模型为开发者可以自行微调的基座模型,Instruct模型是可以直接聊天的官方对齐模型。

团队评估了不同尺寸Qwen2.5-Coder在所有数据集上的表现,不但均取得同等规模下最佳性能(无论开闭源),并且还验证了Scaling Law依旧奏效。

图片

其中,Qwen2.5-Coder-32B-Instruct是本次开源的旗舰模型

在编程大模型主要关注的5个方面上,它都实现了对GPT-4o的超越:

  • 代码生成
  • 代码修复
  • 代码推理
  • 多编程语言
  • 人类偏好对齐

首先来看编程模型最核心的能力——代码生成

Qwen2.5-Coder-32B-Instruct在多个流行的代码生成基准上都取得了开源SOTA。

而且在HumanEval、McEval、Spider、EvalPlus、BigCodeBench等基准上,都超越了闭源的GPT-4o和Claude 3.5 Sonnet。

图片

其次,代码修复方面,在主流基准Aider上,Qwen2.5-Coder-32B-Instruct略胜GPT-4o。

第三,代码推理方面,在CRUXEval基准上,32B版本较7B版本有了明显提升,甚至达到了和GPT-4o、Claude 3 Opus相当的水平。

图片

第四,在对多编程语言的掌握上,Qwen2.5-Coder支持92种编程语言。Qwen2.5-Coder-32B-Instruct在其中40多种语言上表现出色。

在Haskell、Racket等语言上表现格外突出,打败4o等闭源模型同时取得了超高分数

通过在预训练阶段进行独特数据清洗和配比,它在McEval上取得65.9分,

图片

在多编程语言的代码修复基准MdEval上,同样表现突出,取得75.2分,位列所有开源模型第一。

最后,为了检验Qwen2.5-Coder-32B-Instruct在人类偏好上的对齐表现。通义千问团队还构建了一个来自内部标注的代码偏好评估基准Code Arena,可以理解为编程大模型竞技场。

这一部分,Qwen2.5-Coder-32B-Instruct和闭源模型正面PK,通过让两个模型在同样问题下PK,计算最终胜负比,以此来评判模型表现。

实验结果显示,Claude 3.5 Sonnet战绩最好,Qwen2.5-Coder-32B-Instruct和GPT-4o水平相当,胜率为68.9%。

图片

总的来看,Qwen2.5-Coder-32B-Instruct毫无疑问是开源最佳,并且真正拉平甚至部分超出了有最强代码能力的闭源模型。

在实际应用上,通义千问团队演示了基于Qwen2.5-Coder打造的智能代码助手,并上线了一个Artifacts应用

目前智能代码助手领域主要以闭源模型为主,Qwen2.5-Coder为开发者提供了开源选择。

它在几个可以评估模型辅助编程的基准上(CrossCodeEval、CrossCodeEval、CrossCodeLongEval、RepoEval、SAFIM)都取得了SOTA。

图片

新的Qwen2.5-Coder,对编程小白也很友好,一句话就能开发小应用/游戏。

比如现场自动做一个2048小游戏,几十秒搞定,立刻就能玩。

图片

或者是生成一个图文并茂的英语单词卡页面,速度都非常快。

图片

被全球开发者追捧的中国开源模型

Qwen2.5-Coder-32B的快速推出可以说是众望所归。

就在前段时间,Reddit还有帖子提问,怎么32B版本还不来?

图片

毕竟,不少人都基于9月开源的Qwen2.5-Coder-1.5B和7B版本,打造出了热度颇高的应用。

比如Qwen Code Interpreter。这是一个类似于ChatGPT的代码解释器,可完全在本地/浏览器上运行,基于Qwen2.5-Coder-1.5B打造。

图片

只用小模型还实现了非常好的效果,这立刻引发不少网友的关注,一个随手推荐帖就有近千人点赞。

图片图片

还有人基于Qwen2.5-Coder打造了专门用于rust语言的编程助手

图片

说Qwen2.5-Coder是最受欢迎的开源编程大模型绝不为过,事实上,每一代Qwen编程模型,都代表了开源的最高水平,PK的永远是当时最厉害的闭源模型。

今年4月,CodeQwen1.5-7B发布,在基础代码生成能力上,它表现出超过更大尺寸模型的潜力,拉近了开源模型和GPT-4之间的编程能力差距。

图片

之后在云栖大会上,Qwen2.5-Coder-1.5B/7B发布。作为Qwen2.5家族的一员,Qwen2.5-Coder-7B打败了当时比它尺寸更大的DeepSeek-Coder-V2-Lite和Codestral-20B,成为最强基础编程模型之一。

在此基础上,Qwen2.5-Coder-32B的推出,将规模提升一个数量级达到百亿参数,能力也进一步涌现,水平超越GPT-4o,逐渐逼近闭源模型王者Claude 3.5 Sonnet。

闭源模型山头几个月一换,而开源的Qwen却从来没有停下攀登的脚步,也进一步验证,开源模型和闭源模型之间的差距正在缩短,开源模型完全有机会、有能力取代闭源模型,为全球广大开发者用户提供更加低门槛、开放的AI能力。

随着AI应用趋势不断演进,越来越多领域和行业加入,对AI模型的性能、开发成本以及上手门槛都会提出更高要求。反之,易用的开源模型将成为推动这股趋势的重要动力。

Qwen系列的爆火就是这种正向循环最好的证明之一。截至9月底,全球基于Qwen系列二次开发的衍生模型数量9月底突破7.43万,超越Llama系列衍生模型的7.28万。

通义千问Qwen已成为全球最大的生成式语言模型族群。

图片

而背靠阿里——全球云计算和AI的第一梯队玩家,一方面,深厚技术和资源支持为Qwen系列的持续开源、不断升级提供更可靠保障,另一方面,阿里自身业务及发展上的需要也构成了Qwen继续攀登高峰的内在闭环。

不过开源模型最大价值还是要回归开发者。

AI的到来,让天下没有难开发的应用。

Qwen作为中国开源大模型领军者,为全球开发者提供更丰富的选择,也代表中国创新力量在全球大模型竞技中登台亮相,并且正在得到更多人的认可。

嗯…比如前段时间Mistral发布的端侧模型没有和Qwen2.5做对比,还被小小吐槽了下(doge)。

图片图片

值得一提的是,据透露Qwen3已经在路上,预计在几个月内和大家见面。可以期待一下~

关于Qwen2.5-Coder的更多信息,可直接通过下方链接了解。

GitHub地址:https://github.com/QwenLM/Qwen2.5-Coder技术报告:https://arxiv.org/abs/2409.12186

相关资讯

AI时代已来,吴恩达呼吁向每个孩子教授人工智能知识

将AI编程引入基础课程是值得付出努力的。
6/20/2023 2:41:00 PM
机器之心

学而思网校推出首个基于自研大语言模型的AIGC课程

大模型的影响力正在渗入教育行业。7月3日,学而思网校编程产品升级暨人工智能课程发布会在京落幕。据悉,本次发布会以“用AI,创未来”为主题,重磅推出业内第一个基于自研大语言模型的生成式人工智能(AIGC)课程——《人工智能第一课》,并持续进行编程课程产品的升级,助力普及人工智能教育。“好未来已深刻意识到,生成式人工智能和大型语言模型的长期影响是会转移到学习领域的。”提及好未来在人工智能领域的探索,好未来集团首席技术官田密如是说。对科技研发的大力投入和深度应用,让好未来成长为一家名副其实的科技教育公司,现已积累了上百项
7/5/2023 11:21:00 AM
机器之心

免费!国产大模型编程助手豆包MarsCode重磅上线,还有登录即用的云端IDE

因为 AI  为自己的工作焦虑,这件事不是一天两天了。然而,使用自动化工具辅助编程算得上是程序开发行业由来已久的传统,目前很多程序员都在使用 GitHub Copilot 类的工具,但担心被快速替代的人并不多。相比自然语言,编程语言更加简洁、严谨、可预测。处理起编程语言,大型语言模型要得心应手得多。自 ChatGPT 爆火以来,AI 工具对工作的重要性上升到了新高度。GitHub Copilot、GPT-4 等 AI 编程助手极大地提升了程序员的工作和学习效率。据 GitHub 和微软 2023 年的一项研究发现,
7/2/2024 4:11:00 PM
机器之心

谷歌联合创始人布林:工程师们用 AI 编程还不够积极

谷歌联合创始人谢尔盖・布林(Sergey Brin)表示,谷歌工程师并没有像他认为的那样经常使用人工智能。图源 Pexels布林本周在洛杉矶举行的“All-In”峰会上与企业家大卫・弗里德伯格(David Friedberg)进行了在线对话时发表了上述言论。布林在峰会现场罕见露面,讨论了 AI 的“令人兴奋”的进步。“作为一名计算机科学家,我从未见过像过去几年所取得的进展一样令人兴奋的事情,”布林说。布林表示,他目前几乎每天都在谷歌。他还称赞了 AI 的多方面能力,特别是在编程方面。布林称:“从头开始编写代码感觉非
9/12/2024 9:58:59 PM
远洋

谷歌 CEO 皮查伊:AI 不会取代程序员,反而会让更多人成为程序员

近年来,人工智能(AI)的飞速发展引发了广泛讨论,人们担心 AI 是否会取代人类的工作。艺术家和程序员尤其担心,因为 AI 似乎能够胜任这两项工作。然而,谷歌及其母公司 Alphabet 的 CEO 桑达尔・皮查伊(Sundar Pichai)认为,AI 不会取代程序员,相反,其将帮助更多人成为程序员。图源 Pixabay皮查伊在卡内基梅隆大学的演讲中谈到了 AI 对编程工作的影响,他表示,AI 最有可能帮助人们,而不是取代他们。它可以帮助现有程序员专注于更高级的任务,而不是重复解决同样的问题。此外,皮查伊认为 A
9/23/2024 4:31:28 PM
远洋

新晋AI编程神器干翻Cursor!首创实时感知无限用,估值12.5亿华人初创震惊AI界

Cursor爆火之后,AI编码界好久没有再掀起这么大的风浪了。 它被誉为,唯一能与Cursor匹敌的AI工具! 新晋AI编程工具Windsurf,由估值12.5亿美元的美国初创公司Codeium打造,发布瞬间成为顶流。
11/25/2024 9:20:00 AM
新智元

编程高薪神话末日来临?23届计算机本科就业率狂掉3.2%,AI技能成救命稻草

十年前,如果你问想转行的人怎么快速进入科技行业,答案很可能是「学编程」。 一张培训营的结业证书、一套基础的编程技能,就能让普通人敲开硅谷的大门,踏入高薪职业的快车道。 然而,如今这条路已经越来越难走了。
12/2/2024 8:45:00 AM
新智元

每月3500的AI码农Devin,还是140的编程神器Cursor?实测来了

以下是评测结果,我整理总结了一下分享给大家Devin 主要基于 Slack 工作流:Devin 主要通过 Slack 交互,而非 IDE 集成。 用户在 Slack 中标记 @devin 并提出请求,例如更新代码、修复 bug 等。 Devin 的界面包括远程服务器、浏览器、VS Code 编辑界面和计划器,用户可以逐步查看 Devin 的操作和进度Devin 的实际测试:Steve首先测试了一个可以在消费级硬件上运行的小型图像生成模型。
12/13/2024 9:20:03 AM
AI寒武纪

15个Cursor小技巧,让你精通AI编程

今天介绍Cursor的15个核心特性,帮助开发者更高效、更智能地编写代码。 1.无缝VS Code迁移想从VS Code平滑过渡到Cursor,只需简单几步:打开Cursor的设置,进入“常规”选项卡,找到“账户”部分。 选择“从VS Code导入”功能。
12/31/2024 12:00:30 AM

Windsurf:面向未来的 AI编程工具详解

一、 Windsurf 简介近期随着 Cursor 的爆火,AI 编程领域再次聚焦了诸多开发者的目光,当许多人认为这就是 AI 编程的终极产品时,Windsurf 的横空出世让这个赛道变得更加生动和多元化,随着这些创新产品的持续涌现,我们相信未来 AI 不再仅仅是一个聊天辅助工具,而将成为编程过程中人手必备的一位重要伙伴。 Windsurf 是 Codeium 公司推出的一款 AI 辅助编程工具,凭借创新的设计理念和先进技术,正在引领编程工具的新变革。 它不仅是智能编程助手,还是一个集成了深度上下文感知、多模型 AI、实时协作和高效代码管理的综合开发环境(IDE)。
1/8/2025 9:01:47 AM
黄健

快上车!吴恩达老师分享自用 AI 辅助编程快速打造软件原型最佳实践

在人工智能时代,如何利用 AI 辅助编程快速构建软件原型? 吴恩达老师在这篇信中分享了他的心得与最佳实践。 他不仅介绍了自己当前使用的技术栈(包括 Python FastAPI、Uvicorn、MongoDB 等),还探讨了如何通过明确选择工具和优化开发流程,大幅提升开发效率文中重点包括:1.
1/13/2025 8:40:00 AM
AI寒武纪

AI爆程序员失业潮!小扎正开发编程智能体,「中级程序员」剩最后一年?

今年,编程可能从就业市场上最受追捧的技能之一,变成一种可以完全自动化的技能。 从小扎最近「信心满满」的发言来看,这并不是空穴来风:到2025年,我们Meta以及其他正在研究这一领域的公司,很可能会开发出一种AI,它能够发挥相当于中级工程师的作用,具备编写代码的能力。 甚至,他还提出了一个「终极设想」——Meta大部分代码的编写,以及AI系统的开发,都将由「人·工智能」工程师来完成,不是「人·类」工程师!
1/13/2025 9:30:00 AM
新智元

重磅!微软发布新AI Agent,集成在office全家桶、自动化时代来了

今天凌晨,微软在官网发布了全新企业级AI助手——Microsoft 365 Copilot Chat。 Copilot Chat除了支持的传统的文本生成、文件分析(PDF、Word等)、图像生成之外,最大亮点便是支持AI Agent功能,并且集成在了Microsoft 365商业版中,可直接调用企业自有数据,执行夸端到端的超复杂自动化业务流程。 例如,在供应链管理中,Copilot Chat能够实时监控库存水平,根据销售数据和市场趋势预测需求,自动生成采购订单,并协调物流配送,提升整个供应链工作效率。
1/16/2025 10:07:44 AM
AIGC开放社区

刚刚,OpenAI首个智能体提前曝光!高级编码AI剑指400万年薪L6级工程师

AGI或许就在本周? 刚刚外媒爆料称,OpenAI暗藏的首个智能体项目「Operator」即将发布。 网友发现Operator已登陆ChatGPT,不过可能Pro用户最先用上这款AI智能体将与ChatGPT深度集成,直接可以接管你的屏幕,自动化完成任务。
1/24/2025 9:00:00 AM
新智元

会用ChatGPT≠工程师,谷歌资深员工发文,揭秘AI编程不为人知的真相

尽管程序员们纷纷反馈用上AI辅助之后,工作效率提升,但我们用到的软件中bug依旧不少。 针对这一现象,前谷歌产品经理Peter Szalontay,以及现任的谷歌Chrome的工程团队领导Addy Osmani都给出了自己的分析,并提供了一些如何使用AI辅助编程的建议。 AI编码工具的黑暗真相1月7日,前谷歌产品经理Peter Szalontay发推,并配上了一个令人惊心动魄的标题:「无人谈论的AI编码工具的黑暗真相」。
1/24/2025 9:10:00 AM
新智元

AI编程L1-L5超全分级来了!GitHub Copilot仅L1,Devin是L4

AI恰似一把神奇的钥匙,悄然开启了编程领域的全新大门。 从代码补全到项目级自动化,AI的角色从「助手」转变为「工程师」,甚至是「开发团队」,极大地改变了软件开发的传统格局。 借鉴自动驾驶的术语,AI编程工具可以划分为L1到L5五个等级。
2/6/2025 9:40:00 AM
新智元

新增AI Agent,GitHub Copilot重大更新,超强自动化编程

全球最大开源平台之一GitHub在官网宣布,对AI编程助手Copilot进行了重磅更新,增加AI Agent模式,可以自动迭代代码,识别并修复BUG。 GitHub同时还发布了另一个Agent—Project Padawan的预览版,主要协助开发人员自动执行一些重复、繁琐的开发流程,例如,设置开发环境、运行测试、合并代码等。 此外,GitHub在去年10月推出的Copilot.
2/8/2025 11:30:00 AM
AIGC开放社区

OpenAI内部模型曝光!编程能力跻身全球Top50程序员,年底不再有人类对手

除了o1/o3,OpenAI另一个尚未公开的内部推理模型曝光了。 爆料者正是CEO奥特曼本人。 据他透露,与全球顶尖程序员相比,当前这一内部模型的编程能力已达Top50,甚至今年年底将排名第一。
2/10/2025 9:20:00 AM
量子位
  • 1