AI在线 AI在线

NeurIPS 2025 最佳论文揭晓:阿里通义千问靠“门控注意力”摘下中国唯一大奖

全球 AI 顶会 NeurIPS 2025 今晚公布获奖名单,阿里巴巴通义千问团队凭《Attention Gating Makes Better Foundation Models》拿下最佳论文奖,成为 4 篇获奖论文中唯一中国面孔。 本届大会共收稿 2 万篇,录取率仅 25%,竞争强度创历史新高。 论文核心是一把“滑动门”:在标准注意力后加一层可学习的门控,实时决定哪些头、哪些 token 继续参与下游计算。

全球 AI 顶会 NeurIPS 2025 今晚公布获奖名单,阿里巴巴通义千问团队凭《Attention Gating Makes Better Foundation Models》拿下最佳论文奖,成为 4 篇获奖论文中唯一中国面孔。本届大会共收稿 2 万篇,录取率仅 25%,竞争强度创历史新高。

论文核心是一把“滑动门”:在标准注意力后加一层可学习的门控,实时决定哪些头、哪些 token 继续参与下游计算。实验显示,1.7 B 稠密模型与 15 B MoE 模型在 3.5 T tokens 上训练,**参数只增 1 %,困惑度降 0.2,MMLU 涨 2 分**,Pile 各子域均取得一致提升。团队解释,门控相当于给注意力做“安检”,无效信息被拦在 FFN 之前,计算效率与鲁棒性同步提高。

该机制已装进即将发布的 Qwen3-Next,阿里同时把代码与 1.7 B 实验模型开源至 GitHub,供社区二次验证。通义千问表示,下一步将把门控思路扩展到多模态与长文本,让“会自己过滤的注意力”成为下一代大模型的标准组件。

相关资讯

vivo AI Lab提出自我进化的移动GUI智能体,UI-Genie无需人工标注实现性能持续提升

本文来自于香港中文大学 MMLab 和 vivo AI Lab,其中论文第一作者肖涵,主要研究方向为多模态大模型和智能体学习,合作作者王国志,研究方向为多模态大模型和 Agent 强化学习。 项目 leader 任帅,研究方向为多模态大模型、Agent 及具身智能,指导教师是香港中文大学 MMLab 的李鸿升教授。 近年来,多模态大模型(MLLM)在理解和生成任务上取得了巨大突破。
11/7/2025 3:25:00 PM
机器之心

NeurIPS2025 Spotlight | RobustMerge: 多模态大模型高效微调模型合并的全新范式

在 AI 技术飞速发展的今天,如何高效地将多个专业模型的能力融合到一个通用模型中,是当前大模型应用面临的关键挑战。 全量微调领域已经有许多开创性的工作,但是在高效微调领域,尚未有对模型合并范式清晰的指引。 因此,中科院、中山大学、北京大学的研究团队针对高效微调模型合并,提出了「方向鲁棒性」的概念,首次揭示了参数高效微调(PEFT)模块合并失败的根本原因是「方向不鲁棒」,而非传统认为的「符号冲突」,并提供了一个简单高效、无需额外成本的解决方案(RobustMerge)。
11/10/2025 1:08:00 PM
机器之心

多个团队发力 AI 论文反识别检测,复旦等高校严管论文 AI 使用

据央视财经报道,目前国内有多个团队正在从不同方向发力,进行 AI 论文反识别的检测研究。专家表示,随着 AI 技术的迭代和更新,反识别技术也要加速更新,才能持续对学术造假起到震慑作用。
2/26/2025 10:10:16 PM
浩渺