AI在线 AI在线

阿里通义千问推出全新推理模型 Qwen3-30B-A3B-Thinking-2507,多项能力显著提升

AI在线 7 月 31 日消息,阿里通义千问今日宣布推出全新推理模型 Qwen3-30B-A3B-Thinking-2507。 相较于 4 月 29 日开源的 Qwen3-30-A3B 模型,新模型在推理能力、通用能力及上下文长度上有了显著提升:新模型在聚焦数学能力的 AIME25 评测中斩获 85.0 的高分,在代码能力测试 LiveCodeBench v6 中得分 66.0,两项核心推理能力均超越 Gemini2.5-Flash(thinking)、Qwen3-235B-A22B(thinking);新模型的知识水平(GPQA、MMLU-Pro)也较上一版本进步显著。 在写作(WritingBench)、Agent 能力(BFCL-v3)、多轮对话和多语言指令遵循(MultiIF)等通用能力评测中,Qwen3-30B-A3B-Thinking-2507 均超越 Gemini2.5-Flash(thinking)、Qwen3-235B-A22B(thinking)。

AI在线 7 月 31 日消息,阿里通义千问今日宣布推出全新推理模型 Qwen3-30B-A3B-Thinking-2507。相较于 4 月 29 日开源的 Qwen3-30-A3B 模型,新模型在推理能力、通用能力及上下文长度上有了显著提升:

阿里通义千问推出全新推理模型 Qwen3-30B-A3B-Thinking-2507,多项能力显著提升

  • 新模型在聚焦数学能力的 AIME25 评测中斩获 85.0 的高分,在代码能力测试 LiveCodeBench v6 中得分 66.0,两项核心推理能力均超越 Gemini2.5-Flash(thinking)、Qwen3-235B-A22B(thinking);新模型的知识水平(GPQA、MMLU-Pro)也较上一版本进步显著。

  • 在写作(WritingBench)、Agent 能力(BFCL-v3)、多轮对话和多语言指令遵循(MultiIF)等通用能力评测中,Qwen3-30B-A3B-Thinking-2507 均超越 Gemini2.5-Flash(thinking)、Qwen3-235B-A22B(thinking)。

  • 更长的上下文理解,原生支持 256K tokens,可扩展至 1M tokens

阿里通义千问推出全新推理模型 Qwen3-30B-A3B-Thinking-2507,多项能力显著提升

阿里通义千问推出全新推理模型 Qwen3-30B-A3B-Thinking-2507,多项能力显著提升

此外,新模型的思考长度(thinking length)也增加了,官方推荐在高度复杂的推理任务中设置更长的思考预算,以充分发挥它的潜力。

官方透露,目前 Qwen3-30B-A3B-Thinking-2507 已在魔搭社区、HuggingFace 上开源,其轻量体积可轻松实现消费级硬件的本地部署;同时,其也在 Qwen Chat 上同步上线了新模型。

阿里通义千问推出全新推理模型 Qwen3-30B-A3B-Thinking-2507,多项能力显著提升

相关资讯

阿里通义千问全新视觉理解模型 Qwen2.5-VL 开源:三尺寸版本、支持理解长视频和捕捉事件等能力

阿里通义千问官方今日发文宣布,开源全新的视觉理解模型 Qwen2.5-VL——Qwen 模型家族的旗舰视觉语言模型,推出了 3B、7B 和 72B 三个尺寸版本。
1/28/2025 7:48:15 AM
归泷(实习)

苹果选择通义,肯定阿里的同时,也否定了阿里

持续两年的"苹果AI订单争夺战"终于尘埃落定。 2月11日,华尔街见闻获悉,苹果已经选择阿里巴巴作为合作商,为中国版的iPhone开发人工智能功能。 从2023年开始,苹果就开始测试不同的国产模型,与苹果传出「联姻」消息的不下7家,既包括了百度、字节跳动等大厂,还有百川智能、月之暗面和Deepseek 等大模型创企。
2/17/2025 7:00:00 PM
高允毅

阿里千问(Qwen)衍生模型数量破 10 万,位居全球开源模型榜首

全球最大 AI 开源社区 Hugging Face 数据显示,截至目前,阿里千问(Qwen)开源大模型的衍生模型数量已突破 10 万,持续领先美国 Llama 等开源模型,稳居全球最大开源模型榜首。
2/25/2025 4:08:38 PM
清源
  • 1