AI在线 AI在线

媲美Claude 4,支持100万上下文!阿里开源超强代码AI Agent模型

阿里巴巴开源了超强AI Agent模型Qwen3-Coder-480B-A35B-Instruct。 根据阿里公布的测试数据显示,Qwen3-Coder在OpenAI发布的Agent测试基准SWE-bench Verified中,500轮交互的测试分数达到了69.6%,常规分数为67%,可媲美最强闭源代码模型之一Claude Sonnet 4的70.4%和68%。 同时Qwen3-Coder也大幅度超越了DeepSeek R1-0528版本的41.4%和V3-0324版本的38.8%。

阿里巴巴开源了超强AI Agent模型Qwen3-Coder-480B-A35B-Instruct。

根据阿里公布的测试数据显示,Qwen3-Coder在OpenAI发布的Agent测试基准SWE-bench Verified中,500轮交互的测试分数达到了69.6%,常规分数为67%,可媲美最强闭源代码模型之一Claude Sonnet 4的70.4%和68%。

同时Qwen3-Coder也大幅度超越了DeepSeek R1-0528版本的41.4%和V3-0324版本的38.8%。

图片

开源地址:https://huggingface.co/Qwen/Qwen3-Coder-480B-A35B-Instruct

https://github.com/QwenLM/Qwen3-Coder

Qwen3-Coder采用了混合专家架构,一共有4800亿参数,其中350亿处于活跃状态。原生支持256K上下文窗口,但可通过YaRN技术扩展至100万。这对于代码领域来说帮助非常大,例如,一些比较小的开发项目可以一次性全部解读。

Qwen3-Coder在预训练阶段使用了7.5T的高质量数据进行了训练,其中70%为代码数据,同时保留了通用和数学推理能力。还利用 Qwen2.5-Coder 来清理和重写嘈杂的数据,显著提高了整体数据质量。

在后训练阶段,Qwen3-Coder 进行了代码强化学习的扩展训练。与社区中常见的专注于竞赛级代码生成不同,Qwen3-Coder 认为所有代码任务都适合执行驱动的大规模强化学习。

通过自动扩展多样化编码任务的测试用例,创建了高质量的训练实例,成功释放了强化学习的全部潜力,不仅显著提高了代码执行的成功率,还为其他任务带来了增益。

图片

此外,Qwen3-Coder 引入了长视界强化学习(Agent RL),以鼓励模型通过多轮交互使用工具来解决现实世界中的任务。Agent RL 的关键挑战在于环境扩展,为此,Qwen3-Coder 构建了一个可扩展的系统,能够并行运行 20000 个独立环境,利用阿里云的基础设施提供必要的反馈,支持大规模强化学习和大规模评估。

为了方便使用Qwen3-Coder,还开源了一个命令行工具Qwen-Code,它是从 Gemini Code分叉而来的,经过定制提示和功能调用协议的调整,以充分发挥Qwen3-Coder在智能体编码任务中的能力。

Qwen Code支持OpenAI SDK,并且可以通过环境变量或 .env文件配置API密钥和基础URL。

Qwen3-Coder在编程方面的能力非常出色,例如,开发一个基于物理定律的烟囱拆除控制爆炸模拟器。

媲美Claude 4,支持100万上下文!阿里开源超强代码AI Agent模型

开发一个类似谷歌地图的3D模拟器。

媲美Claude 4,支持100万上下文!阿里开源超强代码AI Agent模型

用一句名言测试你的打字速度的应用。

媲美Claude 4,支持100万上下文!阿里开源超强代码AI Agent模型

开发一个旋转超立方体中的弹跳球。

媲美Claude 4,支持100万上下文!阿里开源超强代码AI Agent模型

使用p5.js创建一个令人惊叹的多色和交互式动画。

媲美Claude 4,支持100万上下文!阿里开源超强代码AI Agent模型

值得一提的是,Qwen3-Coder还可以与Claude Code一起使用,用户只需要阿里云模型工作室平台上申请API密钥,并安装Claude Code 就能编码。还提供了claude-code-config npm 包,用于自定义Claude Code的后端模型。

申请地址:https://modelstudio.console.alibabacloud.com/

相关资讯

Databricks 推出 1320 亿参数大语言模型 DBRX,号称“现阶段最强开源 AI”

Databricks 近日在推出了一款通用大语言模型 DBRX,号称是“目前最强开源 AI”,据称在各种基准测试中都超越了“市面上所有的开源模型”。IT之家从官方新闻稿中得知,DBRX 是一个基于 Transformer 的大语言模型,采用 MoE(Mixture of Experts)架构,具备 1320 亿个参数,并在 12T Token 的源数据上进行预训练。研究人员对这款模型进行测试,相较于市场上已有的 LLaMA2-70B、Mixtral、Grok-1 等开源模型,DBRX 在语言理解(MMLU)、程式设
3/31/2024 3:15:05 PM
漾仔

64页论文揭示AI模型排行榜黑幕:Llama4发布前私下测试27个版本,只取最佳成绩

近日,一篇名为《排行榜幻觉》的论文在学术界引发了广泛关注,尤其是对大型语言模型(LLM)领域中备受推崇的 Chatbot Arena 排行榜提出了严厉质疑。 研究指出,排行榜的可信度因数据访问不平等、模型私下测试等问题而受到挑战。 论文显示,一些大型科技公司可以在公开发布之前对多个模型版本进行私下测试。
5/3/2025 11:00:48 AM
AI在线

​OpenAI 推迟开源大模型发布,重视安全测试

OpenAI 近日在官网上宣布,原定于本周发布的开源大模型将推迟。 OpenAI 的联合创始人兼首席执行官 Sam Altman 在公告中表示,推迟的主要原因是需要更多的时间进行安全测试。 尽管 OpenAI 计划在下周推出这一模型,但为了确保其安全性与可靠性,团队决定将发布时间推迟。
7/14/2025 11:40:47 AM
AI在线
  • 1