AI在线 AI在线

DeepSeek还没登场,Qwen3 已经抢先引爆AI开源圈

AI 社区原本期盼 DeepSeek 发布重磅新品,却意外迎来了另一款令人瞩目的中国开源模型:Qwen3 正式登场。 此次发布的旗舰型号为 Qwen3-235B-A22B。 其中,235B 代表总参数量;而 A22B 指的是该模型采用了“专家混合”(Mixture of Experts,简称 MoE)架构,实际在每次查询中激活的参数量仅约为 220亿(22B)。

AI 社区原本期盼 DeepSeek 发布重磅新品,却意外迎来了另一款令人瞩目的中国开源模型:

Qwen3 正式登场。

此次发布的旗舰型号为 Qwen3-235B-A22B。其中,235B 代表总参数量;而 A22B 指的是该模型采用了“专家混合”(Mixture of Experts,简称 MoE)架构,实际在每次查询中激活的参数量仅约为 220亿(22B)。

但最引人关注的是:

Qwen3 已能与一线模型如 DeepSeek R1、o3 Mini、Grok 3 和 Gemini 2.5 Pro 相媲美。

性能实测:全面对标顶级大模型

根据官方博客提供的多项基准测试数据:

图片图片

  • 在 ArenaHard 测试中,Qwen3 已超越了 o3 Mini,且与 Gemini 2.5 Pro 非常接近。
  • 在 AIME 24 和 25 测试中,其表现介于 Gemini 2.5 Pro 和 o3 Mini 之间。
  • 在编程相关的 LiveCodeBench 和 CodeForces 测试中,甚至超过了 Gemini 2.5 Pro。

这一系列表现彰显了 Qwen3 的强大竞争力。

图片图片

模型种类丰富,覆盖多种需求

此次发布除了旗舰的 MoE 模型外,还包含了从 32B 到 6B 参数量不等的 6 款稠密模型(Dense Models,非专家混合型),以满足不同算力需求的场景。

所有模型都将开源发布于:

  • HuggingFace
  • ModelScope
  • Kaggle

🚀 令人期待的独特功能

Qwen3 一位开发者暗示,该模型具有一些“未在官方模型卡中详细说明的特殊功能”,未来将在科研及产品开发方面带来新可能。

已公开的关键功能包括:

  • 可在**常规模式(Regular Mode)深度思考模式(Extended Thinking Mode)**间自由切换;
  • 提供高效的“思考预算”管理机制(Thinking Budget),即允许用户自由控制模型用于推理的 Token 数量,投入更多 Token 时效果显著提升;
  • 支持多达 119 种语言,具备明显增强的代码生成与智能代理(Agentic)能力。

庞大的训练数据集与创新的训练策略

Qwen3 采用的数据集规模空前,接近 Qwen2.5 所用 **18 万亿 Token(18T)**的两倍,达到约 35 万亿 Token(35T)

在训练过程中,研究团队还创新性地利用自家模型迭代强化训练数据:

  • 使用 Qwen2.5VL 模型从文档中提取文本内容;
  • 再以 Qwen2.5 基础模型对上述文本内容进行提升优化;
  • 同时借助 Qwen2.5 Math 与 Coder 模型生成高质量合成数据。

这种逐步迭代的训练方法,使模型在每个阶段都实现了性能的递进式提升。

此外,训练过程分为三个预训练阶段与四个后续训练阶段:

图片图片

预训练阶段

  • 通用语言数据:约 30 万亿 Token
  • 知识密集型数据:额外 5 万亿 Token
  • 扩展上下文长度至 32K Token

后续训练阶段

  • 长链思考训练(Long Chain-of-Thought);
  • 强化学习微调(Reinforcement Learning);
  • 思考模式融合(Thinking Mode Fusion);
  • 一般化强化学习。

对更轻量级模型,则采取了知识蒸馏(Distillation)的方式,从大模型向小模型传递能力,从而实现了在边缘设备与手机端的高效部署。

完全开源,商业友好

Qwen3 全系列模型采用 Apache 2.0 协议 完全开源,允许开发者:

  • 商业化应用;
  • 创建衍生作品;
  • 以合规署名方式自由销售基于 Qwen3 构建的产品。

开发团队表示:

“我们相信,AI 模型的开发正在从以训练模型为中心,转向以训练智能代理(Agent)为核心的新时代。”

市场竞争日益激烈

随着 Qwen3 的强势发布,以及 DeepSeek 可能即将公布的新模型,未来几周 AI 领域势必掀起新一轮的技术竞赛热潮。

AI 从业者与观察人士无不期待,这场竞争将如何推动技术边界持续扩展。

观点与讨论

本次 Qwen3 的突然崛起,不仅标志着中国开源 AI 模型的又一里程碑,也意味着行业格局或将再次面临洗牌。

相关资讯

深夜突袭,阿里Qwen3登顶全球开源王座!暴击DeepSeek-R1,2小时狂揽17k星

就在今天凌晨,备受全球期待的阿里新一代通义千问模型Qwen3开源! 一经问世,它立刻登顶全球最强开源模型王座。 它的参数量仅为DeepSeek-R1的1/3,但成本大幅下降,性能全面超越R1、OpenAI-o1等全球顶尖模型。
4/29/2025 8:14:14 AM
新智元

阿里重磅发布Qwen3最佳开源LLM,击败 DeepSeek-R1,Llama4

一、Qwen 系列模型发展脉络回溯Qwen 系列模型是阿里云自主研发的成果,其诞生顺应了人工智能领域对强大语言处理能力不断追求的趋势。 自初代模型推出以来,便以高效的架构设计和扎实的预训练基础,在自然语言处理(NLP)任务中初显身手。 随着技术的迭代,Qwen 模型持续进化,参数规模不断扩大,训练数据日益丰富多样,在语言理解、生成等基础能力上稳步提升。
4/29/2025 10:39:46 AM
大模型之路

赶在Deepseek-r2之前,阿里发布全球最强开源模型Qwen3,4张H20即可部署满血版

最近几天,开源大模型是异常活跃。 从前几天有爆料deepseek-r2即将发布的消息:图片到昨天Qwen3短暂发布又撤回:图片再到今天Qwen3正式发布。 感觉就像一场军备竞赛,阿里这次终于抢在了deepseek-r2发布之前发布了Qwen3!
4/30/2025 1:10:00 AM
DD
  • 1