AI在线 AI在线

工程

告别KV Cache枷锁,将长上下文压入权重,持续学习大模型有希望了?

告别KV Cache枷锁,将长上下文压入权重,持续学习大模型有希望了?

人类已经走上了创造 AGI(通用人工智能)的道路,而其中一个关键方面是持续学习,即 AI 能通过与环境互动而不断学习新的知识和能力。 为此,研究社区已经在探索多种不同的道路,比如开发能够实时更新状态的循环神经网络(RNN),或者试图通过极大的缓存空间来容纳海量历史。 然而,真正的 AGI 或许不应仅仅被动地「存储」信息,而应像人类一样在阅读中「进化」。
1/3/2026 12:19:00 AM 机器之心
LSTM之父率队造出PoPE:终结RoPE泛化难题,实现Transformer的极坐标进化

LSTM之父率队造出PoPE:终结RoPE泛化难题,实现Transformer的极坐标进化

Transformer 架构中的注意力机制是根据内容(what)和序列中的位置(where)将键(key)与查询(query)进行匹配。 而在近期 LSTM 之父 Jürgen Schmidhuber 的 USI & SUPSI 瑞士 AI 实验室团队的一项新研究中,分析表明,当前流行的旋转位置嵌入(RoPE)方法中的 what 与 where 是纠缠在一起的。 这种纠缠会损害模型性能,特别是当决策需要对这两个因素进行独立匹配时。
1/3/2026 12:12:00 AM 机器之心
重新定义视频大模型时序定位!南大腾讯联合提出TimeLens,数据+算法全方位升级

重新定义视频大模型时序定位!南大腾讯联合提出TimeLens,数据+算法全方位升级

随着多模态大模型(MLLMs)的飞速发展,模型已经能够很好地理解视频中 “发生了什么(What)”,却无法精准地定位到事件在视频中 “何时发生(When)”。 这种视频时序定位(Video Temporal Grounding, VTG)能力的严重缺陷,已成为制约 MLLM 迈向更精细化的视频理解的主要瓶颈。 长期以来,大量研究致力于设计复杂的模型结构,却忽视了两个关键问题:在数据层面,我们依赖的评测基准是否可靠?
1/3/2026 12:06:00 AM 机器之心
OpenDataArena全面升级版正式上线,四大核心模块重构数据价值评估新格局

OpenDataArena全面升级版正式上线,四大核心模块重构数据价值评估新格局

为破解长期以来学界与业界难以对数据进行价值量化的困局,上海人工智能实验室(上海 AI 实验室)OpenDataLab 团队在今年 8 月正式开源了首个全面、公正的后训练数据价值评测平台 ——OpenDataArena (ODA) 。 该项目致力于将数据选择从「盲目试错」的炼丹术,转变为一门可复现、可分析、可累积的严谨科学。 在初版系统发布后的数月间,项目通过团队内部及小范围社区用户的深度使用,完成了高强度的技术验证与功能打磨。
1/2/2026 1:03:00 AM 机器之心
AAAI 2026 Oral | 给多流数据配「私教+外援」,漂移来了也不慌

AAAI 2026 Oral | 给多流数据配「私教+外援」,漂移来了也不慌

本文作者为:En Yu, Jie Lu, Kun Wang, Xiaoyu Yang, Guangquan Zhang。 所有作者均来自于悉尼科技大学(UTS)澳大利亚人工智能研究院(AAII)。 在智慧城市、社交媒体、工业物联网等真实开放动态环境中,数据往往以多流(Multistream)形式并发产生。
1/2/2026 12:40:00 AM 机器之心
「视频世界模型」新突破:AI连续生成5分钟,画面也不崩

「视频世界模型」新突破:AI连续生成5分钟,画面也不崩

当 Sora 让世界看到了 AI 生成视频的惊艳效果,一个更深层的问题浮出水面:如何让生成的视频不只是「看起来像」,而是真正理解并遵循物理世界的规律? 这正是「视频世界模型」(Video World Model)要解决的核心挑战。 当生成时长从几秒扩展到几分钟,模型不仅要画面逼真,更要在长时间尺度上保持结构、行为与物理规律的一致性。
12/31/2025 5:48:00 PM 机器之心
7B扩散语言模型单样例1000+ tokens/s!上交大联合华为推出LoPA

7B扩散语言模型单样例1000+ tokens/s!上交大联合华为推出LoPA

视频 1:单样例推理速度对比:SGLang 部署的 Qwen3-8B (NVIDIA) vs. LoPA-Dist 部署 (NVIDIA & Ascend)(注:NVIDIA 平台相同,配置对齐)在大语言模型(LLMs)领域,扩散大语言模型(dLLMs)因其并行预测特性,理论上具备超越传统自回归(AR)模型的推理速度潜力。 然而在实践中,受限于现有的解码策略,dLLMs 的单步生成往往局限于 1-3 个 Token,难以真正释放其并行潜力。
12/31/2025 4:31:00 PM 机器之心
重塑语音安全!上海交大联合宇生月伴,研发高性能高泛化语音鉴伪大模型

重塑语音安全!上海交大联合宇生月伴,研发高性能高泛化语音鉴伪大模型

在生成式 AI 技术日新月异的背景下,合成语音的逼真度已达到真假难辨的水平,随之而来的语音欺诈与信息伪造风险也愈演愈烈。 作为应对手段,语音鉴伪技术已成为信息安全领域的研究重心。 然而,当前的语音鉴伪模型正面临严峻的「泛化性挑战」:许多在特定实验室数据集上表现优秀的模型,在面对现实世界中从未见过的生成算法时,检测性能往往会出现剧烈下滑。
12/31/2025 1:10:00 PM 机器之心
三维空间太难懂?RoboTracer让机器人理解复杂空间指令,推理3D空间轨迹,开放世界也能精确行动

三维空间太难懂?RoboTracer让机器人理解复杂空间指令,推理3D空间轨迹,开放世界也能精确行动

本文的主要作者来自北京航空航天大学、北京大学、北京智源人工智能研究院和中科院自动化研究所。 本文的第一作者为北京航空航天大学博士生周恩申,主要研究方向为具身智能和多模态大模型。 本文的共一作者兼项目负责人为北京智源研究院研究员迟程。
12/30/2025 8:24:00 PM 机器之心
自回归因果注意力也能并行解码?上交联合UCSD突破LLM推理瓶颈,模型代码全开源

自回归因果注意力也能并行解码?上交联合UCSD突破LLM推理瓶颈,模型代码全开源

在大语言模型(LLM)落地应用中,推理速度始终是制约效率的核心瓶颈。 传统自回归(AR)解码虽能保证生成质量,却需逐 token 串行计算,速度极为缓慢;扩散型 LLM(dLLMs)虽支持并行解码,却面临训练成本高昂、质量下降及 KV 缓存兼容问题;投机解码(Speculative Decoding)则需额外引入草稿模型,系统复杂度大增。         Jacobi Forcing Model 与 AR LLM 推理速度对比示意近期,来自 UCSD Hao AI Lab 和上海交大 Deng Lab 的团队提出了一种突破性解决方案 ——Jacobi Forcing,该方案无需重构模型架构,即可将标准 AR 模型转化为原生因果并行解码器,在编码、数学等任务中实现最高 4 倍 wall-clock 提速和 4.5 倍 tokens-per-forward 提升,同时保持接近 AR 模型的生成质量,为 LLM 高效推理开辟了新路径。
12/30/2025 3:10:00 PM 机器之心
清华朱军团队Nature Machine Intelligence:多模态扩散模型实现心血管信号实时全面监测

清华朱军团队Nature Machine Intelligence:多模态扩散模型实现心血管信号实时全面监测

可穿戴健康监测信号由于监测难度高、观测噪声大、易受干扰,高质量的心血管信号仍难以长期便捷获取,这是智能健康监测系统始终面临的现实困境。 近日,清华朱军等团队提出了一种统一的多模态生成框架 UniCardio,在单扩散模型中同时实现了心血管信号的去噪、插补与跨模态生成,为真实场景下的人工智能辅助医疗提供了一种新的解决思路。 相关工作《Versatile Cardiovascular Signal Generation with a Unified Diffusion Transformer》于 2025 年 12 月 29 日在 Nature Machine Intelligence 正式上线。
12/30/2025 12:08:00 PM 机器之心
港大联合字节跳动提出JoVA: 一种基于联合自注意力的视频-音频联合生成模型

港大联合字节跳动提出JoVA: 一种基于联合自注意力的视频-音频联合生成模型

作者介绍:本文第一作者黄小虎同学,目前是香港大学的三年级在读博士生,导师是韩锴教授。 黄小虎的研究方向是以视频为中心的领域,包括音视频生成、视频理解以及视频识别。 视频 - 音频联合生成的研究近期在开源与闭源社区都备受关注,其中,如何生成音视频对齐的内容是研究的重点。
12/30/2025 10:11:00 AM 机器之心
全景视觉的Depth Anything来了!Insta360推出DAP,200万数据打造全场景360°空间智能新高度

全景视觉的Depth Anything来了!Insta360推出DAP,200万数据打造全场景360°空间智能新高度

在空间智能(Spatial Intelligence)飞速发展的今天,全景视角因其 360° 的环绕覆盖能力,成为了机器人导航、自动驾驶及虚拟现实的核心基石。 然而,全景深度估计长期面临 “数据荒” 与 “模型泛化差” 的瓶颈。 近日,来自 Insta360 研究团队、加州大学圣地亚哥分校 (UCSD)、武汉大学以及加州大学默塞德分校的研究者共同推出了 Depth Any Panoramas (DAP)。
12/29/2025 4:49:00 PM 机器之心
QwenLong-L1.5发布:一套配方,三大法宝,让30B MoE模型长文本推理能力媲美GPT-5

QwenLong-L1.5发布:一套配方,三大法宝,让30B MoE模型长文本推理能力媲美GPT-5

作为大模型从业者或研究员的你,是否也曾为一个模型的 “长文本能力” 而兴奋,却在实际应用中发现它并没有想象中那么智能? 你大概率也遇到过以下困境之一:虚假的繁荣: 模型在 “大海捞针” (Needle-in-a-Haystack) 测试中轻松取得高分,营造了一种长文本能力已经解决的 “虚假繁荣”。 但一旦任务从简单的信息定位,升级为需要串联分散证据、整合全局信息的多跳推理 (multi-hop reasoning) 时,模型的表现便会急转直下,难以构建起完整的逻辑链条,暴露出其在深度理解上的真实短板。
12/29/2025 1:42:00 PM 机器之心
AAAI 2026 Oral|LENS:基于统一强化推理的分割大模型

AAAI 2026 Oral|LENS:基于统一强化推理的分割大模型

文本提示图像分割(Text-prompted image segmentation)是实现精细化视觉理解的关键技术,在人机交互、具身智能及机器人等前沿领域具有重大的战略意义。 这项技术使机器能够根据自然语言指令,在复杂的视觉场景中定位并分割出任意目标。 然而,当前主流的技术路径,如基于监督式微调(Supervised Fine-Tuning, SFT)的方法,正面临着根本性的瓶颈。
12/29/2025 1:37:00 PM 机器之心
个人电脑也能进行智能体RL训练?尤佳轩团队开源OpenTinker

个人电脑也能进行智能体RL训练?尤佳轩团队开源OpenTinker

该研究团队来自伊利诺伊大学厄巴纳 - 香槟分校(UIUC),由计算机系助理教授 Jiaxuan You 领导,其指导的 U Lab 长期从事大模型智能体相关研究。 Jiaxuan You 教授的研究聚焦于 Agentic LLM 的基础能力、垂直应用与生态体系建设,博士毕业于斯坦福大学,已在 NeurIPS、ICML、ICLR 等顶级会议发表论文三十余篇,总引用量两万余次,多次担任 Area Chair 并组织国际 Workshop。 其主导或参与的开源项目累计获得三万余颗 Star。
12/29/2025 11:29:00 AM 机器之心
SIGGRAPH Asia 2025最佳论文 | 港中大、曼彻斯特大学获奖

SIGGRAPH Asia 2025最佳论文 | 港中大、曼彻斯特大学获奖

作为 SIGGRAPH 系列的两大主会之一,SIGGRAPH Asia 是毫无争议的 “天花板级会议”。 每年,这里汇聚了全球顶尖的研究团队,展示着计算机图形学、3D 视觉、计算机辅助设计及数字化制造等领域的最新突破,指引着学术界与工业界的技术风向。 在 2025 年的评审中,大会共收到 1,106 篇技术论文投稿,最终录用 201 篇会议论文和 100 篇期刊(ACM Transaction on Graphics)论文。
12/28/2025 6:18:00 PM 机器之心
AI 真能看懂物理世界吗?FysicsWorld:填补全模态交互与物理感知评测的空白

AI 真能看懂物理世界吗?FysicsWorld:填补全模态交互与物理感知评测的空白

近年来,多模态大语言模型正在经历一场快速的范式转变,新兴研究聚焦于构建能够联合处理和生成跨语言、视觉、音频以及其他潜在感官模态信息的统一全模态大模型。 此类模型的目标不仅是感知全模态内容,还要将视觉理解和生成整合到统一架构中,从而实现模态间的协同交互。 这种转变的驱动力源于真实物理世界的复杂性,自从文明诞生以来,人类通过对反映现实世界本质的视觉线索、听觉信号、空间动态等复杂多模态信息的不断观察、分析和推理来实现对真实物理世界的正确认识和理解。
12/28/2025 6:03:00 PM 机器之心