AI在线 AI在线

中国唯一!阿里千问斩获全球AI顶会最佳论文

11月28日消息,人工智能领域顶级会议NeurIPS 2025公布了论文奖,阿里通义千问团队最新研究成果从全球2万多篇投稿论文中脱颖而出,被评为最佳论文,是唯一获得该奖项的中国团队。 该论文首次在业内揭秘了注意力门控机制对大模型性能和训练的影响,业内人士普遍认为该研究是突破当下大模型训练瓶颈的重要一步,将有力推动AI大模型技术的发展。 NeurIPS是人工智能领域影响力最大的顶会之一,该会议诞生了Transformer、AlexNet等里程碑式研究成果。

11月28日消息,人工智能领域顶级会议NeurIPS 2025公布了论文奖,阿里通义千问团队最新研究成果从全球2万多篇投稿论文中脱颖而出,被评为最佳论文,是唯一获得该奖项的中国团队。

该论文首次在业内揭秘了注意力门控机制对大模型性能和训练的影响,业内人士普遍认为该研究是突破当下大模型训练瓶颈的重要一步,将有力推动AI大模型技术的发展。

中国唯一!阿里千问斩获全球AI顶会最佳论文

NeurIPS是人工智能领域影响力最大的顶会之一,该会议诞生了Transformer、AlexNet等里程碑式研究成果。

今年,谷歌、微软、OpenAI、阿里巴巴及麻省理工学院等全球顶尖科技公司和机构共有2万多篇论文投稿,仅有约25%的论文被接收,而最佳论文仅有4篇,入选概率不及万分之二,代表了目前全球人工智能领域最有价值和影响力的研究。

2017年,谷歌在NeurIPS发表的论文首次提出Transformer模型架构和自注意力机制,这一研究让AI像人类一样具备有选择性地关注关键信息的能力,是当下大模型研究的基础。

尽管现在大模型在很多领域已经取得接近甚至超越人类的表现,但现有注意力机制仍存在诸多局限,例如当下大模型会因为过度关注特定信息而导致对其它重要信息的忽略或处理偏差,这些局限性极大地影响了模型性能和训练稳定性,为此业界开始探索对注意力进行优化的新方案。

门控机制被认为是模型的“智能阀门”,可以帮助模型过滤无效信息并提升模型性能。近年来,AlphaFold2、Forgetting Transformer等学术界和工业界模型开始尝试将门控和注意力机制结合。但业界尚未破解门控在注意力中发挥作用的内在原因,也缺少大规模实践的经验。

此次,通义千问研究团队通过在1.7B稠密模型(Dense)与15B混合专家模型(MoE)上进行了数十组实验,单组实验训练最多超过 3.5 万亿 tokens,首次清晰揭秘了门控注意力背后的作用原理,并全面展示使用该方案的最佳方式。

实验结果显示,对各注意力头的输出进行门控,是提升模型性能最有效的方式。使用该方式,在引入额外1%参数的情况下,可实现0.2以上的困惑度下降、MMLU基准评测2个点的提升。研究还发现,该技术还能在更大规模的模型训练上实现更好的性能。

中国唯一!阿里千问斩获全球AI顶会最佳论文

使用论文方法,在引入额外1%参数的情况下,可以实现0.2以上的困惑度下降、MMLU基准评测2个点的提升

目前,该研究成果已应用于Qwen3-Next模型,并显著提升模型的性能与鲁棒性,相关技术方案、实验模型及产品级模型均已开源。NeurIPS评审委员会指出:“这项工作将被广泛应用,并极大推动AI研究人员对大语言模型中注意力机制的理解。”

通义千问团队表示:“对门控注意力机制的深入理解,不仅为大语言模型架构设计提供了新思路,也为构建更稳定、更高效、更可控的大模型奠定了基础。”

据悉,目前阿里千问已开源300多款模型,涵盖全模态、全尺寸,全球下载量突破7亿次,衍生模型超过18万个,位居全球第一。

相关资讯

手术刀式去噪突破LLM能力上限,从头预训练模型下游任务平均提高7.2% | 中科院&阿里

RefineX团队 投稿. 量子位 | 公众号 QbitAI在噪声污染严重影响预训练数据的质量时,如何能够高效且精细地精炼数据? 中科院计算所与阿里Qwen等团队联合提出RefineX,一个通过程序化编辑任务实现大规模、精准预训练数据精炼的新框架。
7/21/2025 3:19:53 PM
不圆

调查:超72% 的企业选择 AI 工具时最看重易用性

根据最近的一项 CIO 报告,企业在人工智能(AI)领域的投资高达2.5亿美元,尽管在证明投资回报率(ROI)方面面临挑战。 商业领袖们正努力提高生产力,但新技术的集成往往需要重构现有应用、更新流程并激励员工学习,以适应现代商业环境。 QuickBlox 首席执行官 Nate MacLeitch 对136位高管进行了调查,以揭示 AI 采用的现实情况,探讨领导者的首要任务、主要担忧以及他们在2025年寻找可信工具的信息来源。
3/18/2025 10:02:00 AM
AI在线

可保护作品免遭 AI 训练,Adobe 推出 Content Authenticity 应用

Adobe 推出全新应用 Content Authenticity,用于保护创意工作者的作品署名权,即使有人截屏并在网络二次传播也不受影响。这款网页应用于今日面向公众开放测试,用户上传需要保护的图像,应用就能嵌入隐形元数据和添加“禁止 AI 训练”标签,帮助确认作品归属和保护作品免遭 AI 训练。
4/24/2025 9:32:18 PM
准泽(实习)