中国唯一！阿里千问斩获全球AI顶会最佳论文

作者：量子位的朋友们 2025-11-28 05:16

11月28日消息，人工智能领域顶级会议NeurIPS 2025公布了论文奖，阿里通义千问团队最新研究成果从全球2万多篇投稿论文中脱颖而出，被评为最佳论文，是唯一获得该奖项的中国团队。该论文首次在业内揭秘了注意力门控机制对大模型性能和训练的影响，业内人士普遍认为该研究是突破当下大模型训练瓶颈的重要一步，将有力推动AI大模型技术的发展。 NeurIPS是人工智能领域影响力最大的顶会之一，该会议诞生了Transformer、AlexNet等里程碑式研究成果。

11月28日消息，人工智能领域顶级会议NeurIPS 2025公布了论文奖，阿里通义千问团队最新研究成果从全球2万多篇投稿论文中脱颖而出，被评为最佳论文，是唯一获得该奖项的中国团队。

该论文首次在业内揭秘了注意力门控机制对大模型性能和训练的影响，业内人士普遍认为该研究是突破当下大模型训练瓶颈的重要一步，将有力推动AI大模型技术的发展。

NeurIPS是人工智能领域影响力最大的顶会之一，该会议诞生了Transformer、AlexNet等里程碑式研究成果。

今年，谷歌、微软、OpenAI、阿里巴巴及麻省理工学院等全球顶尖科技公司和机构共有2万多篇论文投稿，仅有约25%的论文被接收，而最佳论文仅有4篇，入选概率不及万分之二，代表了目前全球人工智能领域最有价值和影响力的研究。

2017年，谷歌在NeurIPS发表的论文首次提出Transformer模型架构和自注意力机制，这一研究让AI像人类一样具备有选择性地关注关键信息的能力，是当下大模型研究的基础。

尽管现在大模型在很多领域已经取得接近甚至超越人类的表现，但现有注意力机制仍存在诸多局限，例如当下大模型会因为过度关注特定信息而导致对其它重要信息的忽略或处理偏差，这些局限性极大地影响了模型性能和训练稳定性，为此业界开始探索对注意力进行优化的新方案。

门控机制被认为是模型的“智能阀门”，可以帮助模型过滤无效信息并提升模型性能。近年来，AlphaFold2、Forgetting Transformer等学术界和工业界模型开始尝试将门控和注意力机制结合。但业界尚未破解门控在注意力中发挥作用的内在原因，也缺少大规模实践的经验。

此次，通义千问研究团队通过在1.7B稠密模型（Dense）与15B混合专家模型（MoE）上进行了数十组实验，单组实验训练最多超过 3.5 万亿 tokens，首次清晰揭秘了门控注意力背后的作用原理，并全面展示使用该方案的最佳方式。

实验结果显示，对各注意力头的输出进行门控，是提升模型性能最有效的方式。使用该方式，在引入额外1%参数的情况下，可实现0.2以上的困惑度下降、MMLU基准评测2个点的提升。研究还发现，该技术还能在更大规模的模型训练上实现更好的性能。

使用论文方法，在引入额外1%参数的情况下，可以实现0.2以上的困惑度下降、MMLU基准评测2个点的提升

目前，该研究成果已应用于Qwen3-Next模型，并显著提升模型的性能与鲁棒性，相关技术方案、实验模型及产品级模型均已开源。NeurIPS评审委员会指出：“这项工作将被广泛应用，并极大推动AI研究人员对大语言模型中注意力机制的理解。”

通义千问团队表示：“对门控注意力机制的深入理解，不仅为大语言模型架构设计提供了新思路，也为构建更稳定、更高效、更可控的大模型奠定了基础。”

据悉，目前阿里千问已开源300多款模型，涵盖全模态、全尺寸，全球下载量突破7亿次，衍生模型超过18万个，位居全球第一。

手术刀式去噪突破LLM能力上限，从头预训练模型下游任务平均提高7.2% | 中科院＆阿里

RefineX团队投稿. 量子位 | 公众号 QbitAI在噪声污染严重影响预训练数据的质量时，如何能够高效且精细地精炼数据？中科院计算所与阿里Qwen等团队联合提出RefineX，一个通过程序化编辑任务实现大规模、精准预训练数据精炼的新框架。

7/21/2025 3:19:53 PM 不圆

阿里千问 App 接入高德地图，开始具备物理世界的理解和行动能力

AI在线 12 月 18 日消息，今日，阿里千问 App 接入第一个阿里生态场景 —— 高德。官方称，接入高德后的千问 AI 助手，开始具备物理世界的理解和行动能力。千问不再仅限于回答问题，更能根据精准、动态的现实世界信息，实现从“意图理解”到“服务执行”的跨越。

12/18/2025 10:53:16 AM 远洋

阿里千问：全员大会吃豆包图是 AI 生成的

AI在线 12 月 19 日消息，今日，一张所谓“阿里千问全员会吃豆包”的图片在社交平台流传，引起网友热议。对此，阿里千问官方回应称：“广场大会是假的，图完全是 AI 生成的，里面的 Logo 和工牌全是错的。 ”此外，阿里千问还写道：“也不知这张图是哪位的杰作，大家都是干 AI 的，相煎何太急啊。

12/19/2025 5:16:31 PM 浩渺

中国唯一！阿里千问斩获全球AI顶会最佳论文

相关资讯

手术刀式去噪突破LLM能力上限，从头预训练模型下游任务平均提高7.2% | 中科院＆阿里

阿里千问 App 接入高德地图，开始具备物理世界的理解和行动能力

阿里千问：全员大会吃豆包图是 AI 生成的