工程
告别KV Cache枷锁,将长上下文压入权重,持续学习大模型有希望了?
人类已经走上了创造 AGI(通用人工智能)的道路,而其中一个关键方面是持续学习,即 AI 能通过与环境互动而不断学习新的知识和能力。 为此,研究社区已经在探索多种不同的道路,比如开发能够实时更新状态的循环神经网络(RNN),或者试图通过极大的缓存空间来容纳海量历史。 然而,真正的 AGI 或许不应仅仅被动地「存储」信息,而应像人类一样在阅读中「进化」。
LSTM之父率队造出PoPE:终结RoPE泛化难题,实现Transformer的极坐标进化
Transformer 架构中的注意力机制是根据内容(what)和序列中的位置(where)将键(key)与查询(query)进行匹配。 而在近期 LSTM 之父 Jürgen Schmidhuber 的 USI & SUPSI 瑞士 AI 实验室团队的一项新研究中,分析表明,当前流行的旋转位置嵌入(RoPE)方法中的 what 与 where 是纠缠在一起的。 这种纠缠会损害模型性能,特别是当决策需要对这两个因素进行独立匹配时。
重新定义视频大模型时序定位!南大腾讯联合提出TimeLens,数据+算法全方位升级
随着多模态大模型(MLLMs)的飞速发展,模型已经能够很好地理解视频中 “发生了什么(What)”,却无法精准地定位到事件在视频中 “何时发生(When)”。 这种视频时序定位(Video Temporal Grounding, VTG)能力的严重缺陷,已成为制约 MLLM 迈向更精细化的视频理解的主要瓶颈。 长期以来,大量研究致力于设计复杂的模型结构,却忽视了两个关键问题:在数据层面,我们依赖的评测基准是否可靠?
OpenDataArena全面升级版正式上线,四大核心模块重构数据价值评估新格局
为破解长期以来学界与业界难以对数据进行价值量化的困局,上海人工智能实验室(上海 AI 实验室)OpenDataLab 团队在今年 8 月正式开源了首个全面、公正的后训练数据价值评测平台 ——OpenDataArena (ODA) 。 该项目致力于将数据选择从「盲目试错」的炼丹术,转变为一门可复现、可分析、可累积的严谨科学。 在初版系统发布后的数月间,项目通过团队内部及小范围社区用户的深度使用,完成了高强度的技术验证与功能打磨。
AAAI 2026 Oral | 给多流数据配「私教+外援」,漂移来了也不慌
本文作者为:En Yu, Jie Lu, Kun Wang, Xiaoyu Yang, Guangquan Zhang。 所有作者均来自于悉尼科技大学(UTS)澳大利亚人工智能研究院(AAII)。 在智慧城市、社交媒体、工业物联网等真实开放动态环境中,数据往往以多流(Multistream)形式并发产生。
「视频世界模型」新突破:AI连续生成5分钟,画面也不崩
当 Sora 让世界看到了 AI 生成视频的惊艳效果,一个更深层的问题浮出水面:如何让生成的视频不只是「看起来像」,而是真正理解并遵循物理世界的规律? 这正是「视频世界模型」(Video World Model)要解决的核心挑战。 当生成时长从几秒扩展到几分钟,模型不仅要画面逼真,更要在长时间尺度上保持结构、行为与物理规律的一致性。
7B扩散语言模型单样例1000+ tokens/s!上交大联合华为推出LoPA
视频 1:单样例推理速度对比:SGLang 部署的 Qwen3-8B (NVIDIA) vs. LoPA-Dist 部署 (NVIDIA & Ascend)(注:NVIDIA 平台相同,配置对齐)在大语言模型(LLMs)领域,扩散大语言模型(dLLMs)因其并行预测特性,理论上具备超越传统自回归(AR)模型的推理速度潜力。 然而在实践中,受限于现有的解码策略,dLLMs 的单步生成往往局限于 1-3 个 Token,难以真正释放其并行潜力。
重塑语音安全!上海交大联合宇生月伴,研发高性能高泛化语音鉴伪大模型
在生成式 AI 技术日新月异的背景下,合成语音的逼真度已达到真假难辨的水平,随之而来的语音欺诈与信息伪造风险也愈演愈烈。 作为应对手段,语音鉴伪技术已成为信息安全领域的研究重心。 然而,当前的语音鉴伪模型正面临严峻的「泛化性挑战」:许多在特定实验室数据集上表现优秀的模型,在面对现实世界中从未见过的生成算法时,检测性能往往会出现剧烈下滑。
三维空间太难懂?RoboTracer让机器人理解复杂空间指令,推理3D空间轨迹,开放世界也能精确行动
本文的主要作者来自北京航空航天大学、北京大学、北京智源人工智能研究院和中科院自动化研究所。 本文的第一作者为北京航空航天大学博士生周恩申,主要研究方向为具身智能和多模态大模型。 本文的共一作者兼项目负责人为北京智源研究院研究员迟程。
自回归因果注意力也能并行解码?上交联合UCSD突破LLM推理瓶颈,模型代码全开源
在大语言模型(LLM)落地应用中,推理速度始终是制约效率的核心瓶颈。 传统自回归(AR)解码虽能保证生成质量,却需逐 token 串行计算,速度极为缓慢;扩散型 LLM(dLLMs)虽支持并行解码,却面临训练成本高昂、质量下降及 KV 缓存兼容问题;投机解码(Speculative Decoding)则需额外引入草稿模型,系统复杂度大增。 Jacobi Forcing Model 与 AR LLM 推理速度对比示意近期,来自 UCSD Hao AI Lab 和上海交大 Deng Lab 的团队提出了一种突破性解决方案 ——Jacobi Forcing,该方案无需重构模型架构,即可将标准 AR 模型转化为原生因果并行解码器,在编码、数学等任务中实现最高 4 倍 wall-clock 提速和 4.5 倍 tokens-per-forward 提升,同时保持接近 AR 模型的生成质量,为 LLM 高效推理开辟了新路径。
清华朱军团队Nature Machine Intelligence:多模态扩散模型实现心血管信号实时全面监测
可穿戴健康监测信号由于监测难度高、观测噪声大、易受干扰,高质量的心血管信号仍难以长期便捷获取,这是智能健康监测系统始终面临的现实困境。 近日,清华朱军等团队提出了一种统一的多模态生成框架 UniCardio,在单扩散模型中同时实现了心血管信号的去噪、插补与跨模态生成,为真实场景下的人工智能辅助医疗提供了一种新的解决思路。 相关工作《Versatile Cardiovascular Signal Generation with a Unified Diffusion Transformer》于 2025 年 12 月 29 日在 Nature Machine Intelligence 正式上线。
港大联合字节跳动提出JoVA: 一种基于联合自注意力的视频-音频联合生成模型
作者介绍:本文第一作者黄小虎同学,目前是香港大学的三年级在读博士生,导师是韩锴教授。 黄小虎的研究方向是以视频为中心的领域,包括音视频生成、视频理解以及视频识别。 视频 - 音频联合生成的研究近期在开源与闭源社区都备受关注,其中,如何生成音视频对齐的内容是研究的重点。
全景视觉的Depth Anything来了!Insta360推出DAP,200万数据打造全场景360°空间智能新高度
在空间智能(Spatial Intelligence)飞速发展的今天,全景视角因其 360° 的环绕覆盖能力,成为了机器人导航、自动驾驶及虚拟现实的核心基石。 然而,全景深度估计长期面临 “数据荒” 与 “模型泛化差” 的瓶颈。 近日,来自 Insta360 研究团队、加州大学圣地亚哥分校 (UCSD)、武汉大学以及加州大学默塞德分校的研究者共同推出了 Depth Any Panoramas (DAP)。
QwenLong-L1.5发布:一套配方,三大法宝,让30B MoE模型长文本推理能力媲美GPT-5
作为大模型从业者或研究员的你,是否也曾为一个模型的 “长文本能力” 而兴奋,却在实际应用中发现它并没有想象中那么智能? 你大概率也遇到过以下困境之一:虚假的繁荣: 模型在 “大海捞针” (Needle-in-a-Haystack) 测试中轻松取得高分,营造了一种长文本能力已经解决的 “虚假繁荣”。 但一旦任务从简单的信息定位,升级为需要串联分散证据、整合全局信息的多跳推理 (multi-hop reasoning) 时,模型的表现便会急转直下,难以构建起完整的逻辑链条,暴露出其在深度理解上的真实短板。
AAAI 2026 Oral|LENS:基于统一强化推理的分割大模型
文本提示图像分割(Text-prompted image segmentation)是实现精细化视觉理解的关键技术,在人机交互、具身智能及机器人等前沿领域具有重大的战略意义。 这项技术使机器能够根据自然语言指令,在复杂的视觉场景中定位并分割出任意目标。 然而,当前主流的技术路径,如基于监督式微调(Supervised Fine-Tuning, SFT)的方法,正面临着根本性的瓶颈。
个人电脑也能进行智能体RL训练?尤佳轩团队开源OpenTinker
该研究团队来自伊利诺伊大学厄巴纳 - 香槟分校(UIUC),由计算机系助理教授 Jiaxuan You 领导,其指导的 U Lab 长期从事大模型智能体相关研究。 Jiaxuan You 教授的研究聚焦于 Agentic LLM 的基础能力、垂直应用与生态体系建设,博士毕业于斯坦福大学,已在 NeurIPS、ICML、ICLR 等顶级会议发表论文三十余篇,总引用量两万余次,多次担任 Area Chair 并组织国际 Workshop。 其主导或参与的开源项目累计获得三万余颗 Star。
SIGGRAPH Asia 2025最佳论文 | 港中大、曼彻斯特大学获奖
作为 SIGGRAPH 系列的两大主会之一,SIGGRAPH Asia 是毫无争议的 “天花板级会议”。 每年,这里汇聚了全球顶尖的研究团队,展示着计算机图形学、3D 视觉、计算机辅助设计及数字化制造等领域的最新突破,指引着学术界与工业界的技术风向。 在 2025 年的评审中,大会共收到 1,106 篇技术论文投稿,最终录用 201 篇会议论文和 100 篇期刊(ACM Transaction on Graphics)论文。
AI 真能看懂物理世界吗?FysicsWorld:填补全模态交互与物理感知评测的空白
近年来,多模态大语言模型正在经历一场快速的范式转变,新兴研究聚焦于构建能够联合处理和生成跨语言、视觉、音频以及其他潜在感官模态信息的统一全模态大模型。 此类模型的目标不仅是感知全模态内容,还要将视觉理解和生成整合到统一架构中,从而实现模态间的协同交互。 这种转变的驱动力源于真实物理世界的复杂性,自从文明诞生以来,人类通过对反映现实世界本质的视觉线索、听觉信号、空间动态等复杂多模态信息的不断观察、分析和推理来实现对真实物理世界的正确认识和理解。
资讯热榜
标签云
AI
人工智能
OpenAI
AIGC
模型
ChatGPT
谷歌
DeepSeek
AI新词
AI绘画
大模型
机器人
数据
Midjourney
开源
Meta
微软
智能
用户
GPT
学习
英伟达
Gemini
智能体
技术
马斯克
Anthropic
图像
AI创作
训练
LLM
论文
AI for Science
代码
腾讯
苹果
算法
Agent
Claude
芯片
具身智能
Stable Diffusion
xAI
蛋白质
人形机器人
开发者
生成式
神经网络
机器学习
AI视频
3D
字节跳动
大语言模型
RAG
Sora
百度
研究
GPU
生成
华为
工具
AGI
计算
生成式AI
AI设计
大型语言模型
搜索
亚马逊
AI模型
视频生成
特斯拉
DeepMind
场景
Copilot
深度学习
Transformer
架构
MCP
编程
视觉