工程
告别「单线程」思维:通研院提出NPR框架,让智能体进化出原生的并行推理大脑
近年来,大语言模型在「写得长、写得顺」这件事上进步飞快。 但当任务升级到真正复杂的推理场景 —— 需要兵分多路探索、需要自我反思与相互印证、需要在多条线索之间做汇总与取舍时,传统的链式思维(Chain-of-Thought)往往就开始「吃力」:容易被早期判断带偏、发散不足、自我纠错弱,而且顺序生成的效率天然受限。 北京通用人工智能研究院(BIGAI)语言交互实验室(NLCo)最新工作 Native Parallel Reasoner(NPR,原生并行推理器),瞄准的正是这类瓶颈:让智能体在一次思考中同时衍生并维护多条候选推理路径,并在关键节点「分支 聚合」,最终像拼图一样汇总线索,合成最优解。
SIGGRAPH Asia 2025|当视频生成真正「看清一个人」:多视角身份一致、真实光照与可控镜头的统一框架
第一作者徐源诚是 Netflix Eyeline 的研究科学家,专注于基础 AI 模型的研究与开发,涵盖多模态理解、推理、交互与生成,重点方向包括可控视频生成及其在影视制作中的应用。 他于 2025 年获得美国马里兰大学帕克分校博士学位。 最后作者于宁是 Netflix Eyeline 资深研究科学家,带领视频生成 AI 在影视制作中的研发。
顶刊TPAMI|多模态视频理解领域重磅数据更新:MeViSv2发布
近日,多模态视频理解领域迎来重磅更新! 由复旦大学、上海财经大学、南洋理工大学联合打造的 MeViSv2 数据集正式发布,并已被顶刊 IEEE TPAMI 录用。 论文:MeViS: A Multi-Modal Dataset for Referring Motion Expression Video Segmentation,TPAMI 2025arXiv 链接: 数据集官网: 数据集下载: 评测平台: 单位:复旦大学、上海财经大学、南洋理工大学作为目前该领域最具有代表性的数据集之一,MeViSv2 围绕复杂动作推理来挑战现有模型的多模态处理能力,其包含 2,006 个视频、8,171 个目标及 33,072 条文本 / 音频表达,通过新增 15 万秒音频数据实现了向原生多模态的进化。
全异构、全异步的RLinf v0.2尝鲜版发布,支持真机强化学习,像使用GPU一样使用你的机器人!
在具身智能领域,特别是如何构造一个高泛化性的 VLA,数据之争一直存在:仿真数据 vs 真机数据。 数据来源不同,导致算法设计迥然不同,进一步对系统设计提出了更多的要求。 做 infra 的目标是做好服务,支持不同技术路线的探索。
灵巧手企业曦诺未来Xynova完成超亿元天使轮融资
近日,杭州灵巧手企业曦诺未来,完成超亿元天使轮融资,本轮融资由宁德时代旗下唯一的产业投资平台溥泉资本(CATL Capital)领投,小米战投、正轩资本、东方嘉富、电科基金、L2F光源创业者基金跟投,光源资本担任独家财务顾问。 该笔融资将主要用于加速公司核心产品的研发迭代、人才团队提升及量产落地。 曦诺未来成立于2024年底,聚焦高自由度灵巧手、微型电缸、高扭矩密度一体化关节模组的研发、生产与销售,拥有从机加工、电机绕线到组装测试的完整产线,是国内少数具备电机、电控、减速器、丝杠、算法完整自研自产能力的灵巧手和执行器供应商。
越狱成功率飙升至87.6%,南京大学联合美团、上交破解主流视频生成模型安全漏洞
来自南京大学 PRLab 的王淞平、钱儒凡,在单彩峰教授与吕月明助理教授的联合指导下,提出首个面向图生视频(I2V)模型的多模态自进化越狱攻击框架 RunawayEvil。 本研究联合了美团、上海交通大学等多家顶尖机构,共同完成了首个支持多模态协同与自主进化的 I2V 越狱攻击框架的研发。 RunawayEvil 创新性采用「策略 - 战术 - 行动」核心范式,精准破解传统单一模态、静态攻击在 I2V 场景下效果受限的行业痛点,为 I2V 模型的安全漏洞分析提供了高效可靠的工具,为构建更稳健、安全的视频生成系统提供助力。
刷新NAVSIM SOTA,复旦引望提出Masked Diffusion端到端自动驾驶新框架
随着 VLA(Vision-Language-Action)模型的兴起,端到端自动驾驶正经历从「模块化」向「大一统」的范式转移。 然而,将感知、推理与规划压缩进单一模型后,主流的自回归(Auto-regressive)生成范式逐渐显露出局限性。 现有的自回归模型强制遵循「从左到右」的时序生成逻辑,这与人类驾驶员的思维直觉存在本质差异 —— 经验丰富的驾驶员在处理复杂路况时,往往采用「以终为始」的策略,即先确立长期的驾驶意图(如切入匝道、避让行人、靠边停靠),再反推当前的短期操控动作。
V-Thinker: 让模型像人一样「边画边想」
本文共同第一作者为北京邮电大学博士生乔润祺与硕士生谭秋纳,主要研究方向为多模态推理,其共同完成的工作主要有 We-Math、We-Math 2.0,并曾在 CVPR、ACL、ICLR、AAAI、ACM MM 等多个顶会中有论文发表。 本文的通讯作者为博士生导师张洪刚与微信视觉技术中心李琛。 在人类解决复杂视觉问题的过程中,视觉交互往往是重要的认知工具。
北航提出代码大模型的 Scaling Laws:编程语言差异与多语言最优配比策略
北航、人大和九坤投资共同撰写的论文 《Scaling Laws for Code: Every Programming Language Matters》 整理而成。 在代码大模型(Code LLMs)的预训练中,行业内长期存在一种惯性思维,即把所有编程语言的代码都视为同质化的文本数据,主要关注数据总量的堆叠。 然而,现代软件开发本质上是多语言混合的,不同语言的语法特性、语料规模和应用场景差异巨大。
直面VLA的「阿喀琉斯之踵」:TeleAI用「反探索」提升具身推理稳定性
在机器人具身智能领域,视觉 - 语言 - 动作(Vision-Language-Action, VLA)模型正以惊人的速度发展。 从 RT-1、Octo 到最新的 π0、GR00T N1,这些集成了大规模视觉语言模型与机器人控制的系统展现出前所未有的泛化能力。 然而,一个被长期忽视的问题正阻碍着 VLA 模型从实验室走向真实世界 —— 推理阶段的不稳定性。
拒绝「盲修」:JarvisEvo 如何让 Agent 像人类一样拥有「视觉反思」能力?
在迈向通用人工智能的道路上,我们一直在思考一个问题:现有的 Image Editing Agent,真的「懂」修图吗? 大多数基于 LLM/VLM 的智能体,本质上更像是一个「盲目的指挥官」。 它们能流利地写出修图代码或调用 API,但在按下回车键之前,它们看不见画布上的变化,也无法像人类设计师那样,盯着屏幕皱眉说:「这张对比度拉太高了,得往回收到一点。
当世界模型不止「视频」该如何评估?WorldLens提出实用化评估新框架
生成式世界模型在机器人、自动驾驶、AIGC等领域的进展肉眼可见:从单视角、行车记录仪式的视频合成,到可控、多视角、长时序的 4D 场景生成,越来越多系统已经能输出「看起来很逼真」的视频画面。 但问题也随之变得尖锐:当一个模型被称为「世界模型」时,我们究竟在期待它具备什么能力? 仅用 LPIPS、FVD 这类视频指标,或「清晰 / 流畅 / 像真视频」的主观印象,很容易把讨论停留在「像不像视频」。
告别高昂重制成本!港科大广州、快手可灵发布立体视频转换单步推理新方案
近年来,随着 VR 头戴设备、智能眼镜、3D 影院的发展,人们对于 3D 立体视频内容的需求不断增加。 3D 电影带来的沉浸式体验着实令人着迷,但因其制作过程需要专业的相机设备、复杂耗时的专家后处理,3D 内容的制作让普通玩家望而却步:2010 年,卡梅隆导演为了实现经典著作《泰坦尼克号》的 3D 版本重制,制作团队投入了高达 1800 万美元,动用了 300 名专业工程师,耗时整整 60 周才完成 [1]。 如此高昂的成本和复杂的人力投入,一直是 3D 内容生产的最大阻碍。
仅需15%全量Attention!「RTPurbo」阿里Qwen3长文本推理5倍压缩方案来了
为什么大模型厂商给了 128K 的上下文窗口,却在计费上让长文本显著更贵? 为什么 Claude 能 “吞下整本书”,但官方示例往往只展示几千字的文档? 为什么所有大模型厂商都在卷 “更长上下文”,而真正做落地的产品经理却天天琢磨 “怎么把用户输入变短”?
VideoCoF:将「时序推理」引入视频编辑,无Mask实现高精度编辑与长视频外推!
本文第一作者是 UTS 博士生杨向鹏,主要研究方向是视频生成和世界模型;第二作者是谢集,浙江大学的四年级本科生,主要研究方向统一多模态大模型和视频生成。 通讯作者是吴强教授,主要研究方向为计算机视觉和模式识别。 现有的视频编辑模型往往面临「鱼与熊掌不可兼得」的困境:专家模型精度高但依赖 Mask,通用模型虽免 Mask 但定位不准。
RL加持的3D生成时代来了!首个「R1 式」文本到3D推理大模型AR3D-R1登场
强化学习(RL)在大语言模型和 2D 图像生成中大获成功后,首次被系统性拓展到文本到 3D 生成领域! 面对 3D 物体更高的空间复杂性、全局几何一致性和局部纹理精细化的双重挑战,研究者们首次系统研究了 RL 在 3D 自回归生成中的应用! 来自上海人工智能实验室、西北工业大学、香港中文大学、北京大学、香港科技大学等机构的研究者提出了 AR3D-R1,这是首个强化学习增强的文本到 3D 自回归模型。
挑战WorldLabs:Visionary,一个全面超越Marble底层渲染器的WebGPU渲染平台
该工作由上海人工智能实验室钟志航团队联合四川大学、东京大学、上海交通大学、西北工业大学共同完成。 在李飞飞团队 WorldLabs 推出 Marble、引爆「世界模型(World Model)」热潮之后,一个现实问题逐渐浮出水面:世界模型的可视化与交互,依然严重受限于底层 Web 端渲染能力。 Marble 所依赖的基于 WebGL 的 3D Gaussian Splatting (3DGS) 渲染器 SparkJS,让世界模型首次在浏览器中「跑起来」,但也暴露出明显瓶颈:大场景以及复杂场景下,CPU 排序成为性能天花板,动态场景与生成模型难以接入。
AI一旦开始「内卷」,会变成什么样?腾讯混元和上交联合揭秘多智能体「饥饿游戏」
在多智能体系统的想象中,我们常常看到这样一幅图景:多个 AI 智能体分工协作、彼此配合,像一个高效团队一样攻克复杂任务,展现出超越单体智能的 “集体智慧”。 但一个关键问题常常被忽略:当这些智能体不再只是 “同事”,而是被迫变成 “竞品”,甚至是 “对手”,会发生什么? 腾讯混元数字人团队与上海交通大学的最新研究,给出了一个颇为刺眼的回答:当面临极端竞争压力时,LLM 多智能体系统会出现严重的 “过度竞争” 行为,沉迷互踩、内卷和博弈,直接拖垮整体任务表现。
资讯热榜
标签云
AI
人工智能
OpenAI
AIGC
模型
ChatGPT
谷歌
DeepSeek
AI新词
AI绘画
大模型
机器人
数据
Midjourney
开源
Meta
微软
智能
用户
GPT
学习
英伟达
Gemini
智能体
技术
马斯克
Anthropic
图像
AI创作
训练
LLM
论文
AI for Science
代码
腾讯
苹果
算法
Agent
Claude
芯片
具身智能
Stable Diffusion
xAI
蛋白质
人形机器人
开发者
生成式
神经网络
机器学习
AI视频
3D
字节跳动
大语言模型
RAG
Sora
百度
研究
GPU
生成
华为
工具
AGI
计算
生成式AI
AI设计
大型语言模型
搜索
亚马逊
AI模型
视频生成
特斯拉
DeepMind
场景
Copilot
深度学习
Transformer
架构
MCP
编程
视觉