AI在线 AI在线

阿里刚刚开源Qwen3新思考模型:Agent能力超强,支持100万上下文

今天凌晨,阿里巴巴开源了Qwen3家族最新模型Qwen3-30B-A3B-Thinking-2507。 2507与之前阿里开源的Qwen3-30B-A3B-Thinking和Qwen3-235B-A22B-Thinking相比,在Agent智能体、AIME25数学、LiveCodeBench编程、GPQA解决复杂能力等方面,性能全部实现大幅度提升。 同时,2507也超过了谷歌的最新小参数模型Gemini-2.5-Flash-Thinking。

今天凌晨,阿里巴巴开源了Qwen3家族最新模型Qwen3-30B-A3B-Thinking-2507。

2507与之前阿里开源的Qwen3-30B-A3B-Thinking和Qwen3-235B-A22B-Thinking相比,在Agent智能体、AIME25数学、LiveCodeBench编程、GPQA解决复杂能力等方面,性能全部实现大幅度提升。

同时,2507也超过了谷歌的最新小参数模型Gemini-2.5-Flash-Thinking。

图片

开源地址:https://huggingface.co/Qwen/Qwen3-30B-A3B-Thinking-2507

https://modelscope.cn/models/Qwen/Qwen3-30B-A3B-Thinking-2507

对于阿里的新模型,网友表示,疯狂优秀的本地模型,绝对是我能在 20GB 以内装下的最佳选择。思考模式真的带来了天壤之别,恭喜你们,太给力了!

图片

对于这么小的一个模型而言,它在各方面的性能提升都令人印象深刻。

图片

不错,性能很强。现在只需要融合多模态能力,并支持 8 小时的音频和视频转录等功能就更好了。

图片

干得漂亮,各位。真难以想象完成这项工作付出了多少努力,那些不眠之夜和全神贯注的时刻。

图片

Qwen 团队的工作令人赞叹!Qwen3-30B-A3B-Thinking-2507模型在推理能力上的提升以及超大的上下文窗口具有颠覆性意义,为复杂问题的解决开辟了令人期待的新可能。期待探索它的潜力!

图片

干的非常好,Qwen做的很棒。

图片

Qwen3-30B-A3B-Thinking-2507总参数量达到 305 亿,其中激活的参数量为 33亿,非嵌入参数量为 299 亿。该模型包含 48层,采用 Grouped Query Attention机制,Q 的注意力头数为 32,KV 的注意力头数为 4。

此外,它还具备 128 个专家,其中激活的专家数量为8。原生支持256K上下文,但通过扩展可增加至100万。

在性能方面,Qwen3-30B-A3B-Thinking-2507相比其他模型在多个任务上都有出色表现。例如,在知识类的 MMLU-Pro 任务中得分为 80.9、MMLU-Redux为91.4、GPQA为73.4、SuperGPQA为56.8;在推理类的AIME25任务中得分为85.0、HMMT25为71.4、LiveBench 20241125 为 76.8;

图片

在编码类的LiveCodeBench v6(25.02 - 25.05)任务中得分为66.0、CFEval 为 2044、OJBench 为 25.1;在对齐类的IFEval 任务中得分为88.9、Arena-Hard v2 为 56.0、Creative Writing v3为84.4、WritingBench为85.0;

在Agent智能体类的BFCL - v3 任务中得分为72.4、TAU1 - Retail 为67.8、TAU1 - Airline为48.0、TAU2 - Retail 为 58.8、TAU2 - Airline 为 58.0、TAU2 - Telecom 为 26.3;

在多语言类的 MultiIF 任务中得分为 76.4、MMLU-ProX 为 76.4、INCLUDE为 74.4、PolyMATH为52.6。

Qwen3-30B-A3B-Thinking-2507在工具调用能力方面表现出色,推荐使用 Qwen - Agent 来充分发挥其代理能力,Qwen - Agent 内部封装了工具调用模板和工具调用解析器,大大降低了编码复杂性。可以通过 MCP 配置文件、Qwen - Agent 的集成工具或自行集成其他工具来定义可用工具。

为了达到最佳性能,建议采用这些设置:在采样参数方面,建议使用温度为0.6、TopP 为 0.95、TopK为20、MinP为0,对于支持的框架,还可以在0到2之间调整 presence_penalty 参数以减少无休止的重复,但使用较高值可能会偶尔导致语言混合和模型性能略有下降;

在输出长度方面,建议大多数查询使用 32768个token的输出长度,对于高度复杂问题如数学和编程竞赛的基准测试,建议将最大输出长度设置为 81920 个token,为模型提供足够的空间来生成详细全面的回答,从而提升整体性能。

相关资讯

阿里 QwQ-32B 大模型集成至国家超算互联网平台 Chatbot 可视化对话 / API 在线调用服务

国家超算互联网平台今日发文宣布 MaaS 服务再上新:QwQ-32B 推理大模型正式集成至 Chatbot 可视化对话服务与 API 在线调用服务。
3/17/2025 7:32:12 PM
归泷(实习)

Qwen3-Coder上线阿里云百炼 价格比Claude 4便宜3倍

7月23日,阿里云正式推出了最新的 AI 编程大模型 ——Qwen3-Coder API。 目前,Qwen3-Coder API已在阿里云百炼上线。 这一全新的编程助手不仅功能强大,而且在价格上也极具竞争力,令人瞩目。
7/24/2025 9:56:04 AM
AI在线

阿里重回伟大!吴泳铭财报讲话全文曝光:开发者会天然选择阿里云,发布旗舰推理模型!未来三年,阿里对基础设施投资将超过去十年总和!

出品 | 51CTO技术栈(微信号:blog51cto)编辑 | 伊风昨晚,阿里2025财年Q3财报新鲜出炉,同比增长8%,可以说成绩相当亮眼! 淘天增收继续加快,阿里云增速重回加速状态,多项核心业务增速达到年内最佳。 财报显示:阿里第三季度营收增速创逾一年以来最快,资本开支大增,核心业务加速增长,淘天收入增长加快,阿里云收入重回双位数增长(13%),增幅创约两年以来最大,AI相关产品收入连续六季度保持三位数增长。
2/21/2025 12:40:19 PM
伊风
  • 1