阿里千问3推理模型重磅更新，比肩Gemini-2.5 pro、o4-mini

作者：允中 2025-07-25 06:54

7月25日，阿里巴巴全新开源千问3推理模型，性能大幅提升，一举夺下「全球最强开源模型」王座，比肩顶级闭源模型Gemini-2.5 pro、o4-mini。本周阿里已连续开源3款重磅模型，分别斩获基础模型、编程模型、推理模型等主流领域的三项全球开源冠军。两天前开源的AI编程模型Qwen3-Coder，更是引爆全球AI圈，掀起一波用中国千问开源模型替代闭源模型的新浪潮。

7月25日，阿里巴巴全新开源千问3推理模型，性能大幅提升，一举夺下「全球最强开源模型」王座，比肩顶级闭源模型Gemini-2.5 pro、o4-mini。

本周阿里已连续开源3款重磅模型，分别斩获基础模型、编程模型、推理模型等主流领域的三项全球开源冠军。

两天前开源的AI编程模型Qwen3-Coder，更是引爆全球AI圈，掀起一波用中国千问开源模型替代闭源模型的新浪潮。

最新推出的千问3推理模型，登顶全球最强开源推理模型。 自千问3旗舰模型Qwen3-235B-A22B发布后，阿里通义团队一直在扩展大模型的推理极限，全新开源的千问3推理模型在通用能力和深度思考能力上实现巨大飞跃。千问3推理模型支持256K上下文长度，在知识（SuperGPQA）、逻辑推理（HMMT25）、编程（LiveCodeBench v6）、数学（AIME25）、人类偏好对齐（Arena-Hard v2）、创意写作（WritingBench）、多语言能力（MultilF）等核心能力上，千问3推理模型完全可比肩Gemini-2.5 pro、o4-mini等顶尖闭源模型，并创下全球开源模型的最佳性能表现。

在经典基础模型领域，千问3全球最强。3天前开源的 Qwen3-235B-A22B-Instruct-2507（非思考版）新模型，性能显著提升，在GPQA（知识）、AIME25（数学）、LiveCodeBench（编程）、Arena-Hard（人类偏好对齐）、BFCL（Agent能力）等众多测评中表现出色，超越Claude4（Non-thinking）等领先闭源模型。权威AI研究机构Artificial Analysis指出，“千问3是全球最智能的非思考基础模型”。

在AI编程领域，新开源的Qwen3-Coder被誉为「全球最好的编程模型」。Qwen3-Coder在代码能力及Agent调用能力方面取得重大突破。在多语言SWE-bench、Mind2Web、Aider-Polyglot等模型Agent能力评估中，Qwen3-Coder超越GPT4.1、Claude4等顶级闭源模型，并登顶全球最大AI开源社区HuggingFace 模型总榜冠军。借助Qwen3-Coder，刚入行的程序员一天就能完成资深程序员一周的工作，生成一个品牌官网最快只需5分钟。

Qwen3-Coder的开源，引爆硅谷科技圈，在全球AI圈掀起一波「AI编程」热潮。推特创始人杰克·多尔西（Jack Dorsey）、爆火Agent应用Perplexity CEO 阿拉温德·斯里尼瓦斯（Aravind Srinivas）、著名风投公司a16z合伙人马克·马斯克罗（Marco Mascorro）等硅谷大咖盛赞Qwen3-Coder，HuggingFace CEO 克莱门特·德朗格（Clement Delangue）更是连转带发12条推文，向全球开发者力荐这一最好的编程模型。海外知名模型API聚合平台OpenRouter数据显示，阿里千问API调用量暴涨，过去几天已突破1000亿Tokens，在OpenRouter趋势榜上包揽全球前三，是当下最热门的模型。

截至目前，阿里巴巴已开源300余款通义大模型，通义千问衍生模型突破14万个，超越Meta的Llama系列成为全球第一的开源模型家族，通义也是开发者和企业使用最广泛的大模型。未来三年，阿里巴巴还将投入超过3800亿元用于建设云和AI硬件基础设施，持续升级全栈AI能力，为中国和全球开发者和企业提供更先进的模型和云计算服务。

相关标签：

Qwen

原来，这些顶级大模型都是蒸馏的

「除了 Claude、豆包和 Gemini 之外，知名的闭源和开源 LLM 通常表现出很高的蒸馏度。」这是中国科学院深圳先进技术研究院、北大、零一万物等机构的研究者在一篇新论文中得出的结论。前段时间，一位海外技术分析师在一篇博客中提出了一个猜想：一些顶级的 AI 科技公司可能已经构建出了非常智能的模型，比如 OpenAI 可能构建出了 GPT-5，Claude 构建出了 Opus 3.5。

1/29/2025 6:40:00 PM 机器之心

全球开源大模型榜单揭晓，阿里通义千问独占鳌头

近日，全球最大人工智能开源社区 Huggingface 发布了最新的开源大模型排行榜（Open LLM Leaderboard），结果显示，排名前十的开源大模型全都是基于阿里通义千问(Qwen)开源模型进行二次训练的衍生模型。这一成就标志着 Qwen 在开源 AI 领域的主导地位，进一步推动了其在全球的影响力。 Open LLM Leaderboard 被广泛认为是当前最权威的开源大模型榜单，测试维度涵盖了多个领域，包括阅读理解、逻辑推理、数学计算及事实问答等。

2/11/2025 11:55:00 AM AI在线

IBM 强化 watsonx.ai:DeepSeek-R1蒸馏版 Llama 模型上线

IBM 近日宣布，其 AI 开发平台 watsonx.ai 现已支持 DeepSeek-R1蒸馏版的 Llama3.18B和 Llama3.370B模型。 DeepSeek 通过知识蒸馏技术，利用 R1模型生成的数据对多个 Llama和 Qwen变体进行了优化，进一步提升了模型性能。在 watsonx.ai平台上，用户可以通过两种方式使用 DeepSeek 蒸馏模型。

2/11/2025 2:25:00 PM AI在线

阿里千问3推理模型重磅更新，比肩Gemini-2.5 pro、o4-mini

相关资讯

原来，这些顶级大模型都是蒸馏的

全球开源大模型榜单揭晓，阿里通义千问独占鳌头

IBM 强化 watsonx.ai:DeepSeek-R1蒸馏版 Llama 模型上线