AI在线 AI在线

工程

LeCun的JEPA已进化为视觉-语言模型,1.6B参数比肩72B Qwen-VL

LeCun的JEPA已进化为视觉-语言模型,1.6B参数比肩72B Qwen-VL

LeCun 的联合嵌入预测架构(JEPA)迎来了新进展。 近日,来自 Meta、香港科技大学、索邦大学、纽约大学的一个联合团队基于 JEPA 打造了一个视觉-语言模型:VL-JEPA。 据作者 Pascale Fung 介绍,VL-JEPA 是第一个基于联合嵌入预测架构,能够实时执行通用领域视觉-语言任务的非生成模型。
12/21/2025 1:11:00 AM 机器之心
人人都是导演:CineCtrl首个实现视频生成中的相机运镜与摄影效果统一控制

人人都是导演:CineCtrl首个实现视频生成中的相机运镜与摄影效果统一控制

仅凭一段普通视频,能否像专业导演一样,在后期随意改变相机轨迹,同时精细调整变焦、光圈散景、曝光度甚至图像色温? 现有视频生成模型往往难以兼顾「运镜」与「摄影美学」的精确控制。 为此,华中科技大学、南洋理工大学、商汤科技和上海人工智能实验室团队推出了 CineCtrl。
12/21/2025 1:06:00 AM 机器之心
布局控制+身份一致:浙大提出ContextGen,实现布局锚定多实例生成新SOTA

布局控制+身份一致:浙大提出ContextGen,实现布局锚定多实例生成新SOTA

随着扩散模型(Diffusion Models)的迭代演进,图像生成已经日臻成熟。 然而,在 多实例图像生成(Multi-Instance Image Generation, MIG) 这一有着大量用户场景的关键领域,现有的方法仍面临核心瓶颈:如何同时实现对多个对象的空间布局控制(Layout Control)以及身份特征的良好保持(Identity Preservation)。 主流方法往往无法做到两全其美:依赖文本和布局引导(Layout-to-Image)的模型往往难以实现高度的实例定制化,且实例遗漏、属性泄露的问题时有发生;而主流的主体驱动(Subject-driven)方法在主体数量增加时,面临着严重的身份混淆和细节丢失的问题。
12/21/2025 12:54:00 AM 机器之心
Anthropic公布新技术:不靠删数据,参数隔离移除AI危险

Anthropic公布新技术:不靠删数据,参数隔离移除AI危险

近年来,大语言模型的能力突飞猛进,但随之而来的却是愈发棘手的双重用途风险(dual-use risks)。 当模型在海量公开互联网数据中学习时,它不仅掌握语言与推理能力,也不可避免地接触到 CBRN(化学、生物、放射、核)危险制造、软件漏洞利用等高敏感度、潜在危险的知识领域。 为此,研究者通常会在后训练加入拒答机制等安全措施,希望阻断这些能力的滥用。
12/21/2025 12:48:00 AM 机器之心
Mamba作者团队提出SonicMoE:一个Token舍入,让MoE训练速度提升近2倍

Mamba作者团队提出SonicMoE:一个Token舍入,让MoE训练速度提升近2倍

混合专家(MoE)模型已成为在不显著增加计算成本的情况下,实现语言模型规模化扩展的事实标准架构。 近期 MoE 模型展现出明显的高专家粒度(更小的专家中间层维度)和高稀疏性(在专家总数增加的情况下保持激活专家数不变)的趋势,这提升了单位 FLOPs 的模型质量。 这一趋势在近期的开源模型中表现尤为明显,例如 DeepSeek V3、Kimi K2 以及 Qwen3 MoE 等,它们均采用了更细粒度的专家设计(更小的中间层维度)和更高的稀疏度,在保持激活参数量不变的同时大幅增加了总参数量。
12/19/2025 3:02:00 PM 机器之心
大模型「越想越错」?人大&腾讯团队用信息论揭示:什么时候该想、什么时候别想

大模型「越想越错」?人大&腾讯团队用信息论揭示:什么时候该想、什么时候别想

本文的第一作者雍希贤是来中国人民大学的博士生,研究方向聚焦于 Humanoid AI,LLM Coginition & Reasoning。 通讯作者为中国人民大学的周骁副教授以及腾讯天衍实验室的吴贤。 当前,大模型的「推理能力」几乎成为行业最热词。
12/19/2025 2:55:00 PM 机器之心
基于真实数据和物理仿真,国防科大开源具身在线装箱基准RoboBPP

基于真实数据和物理仿真,国防科大开源具身在线装箱基准RoboBPP

在现代工业物流与机器人自动化中,三维装箱问题(3D-BPP)的物理可行性与具身可执行性是决定算法能否真正落地的关键因素。 随着工业自动化水平不断提高,「在线装箱」问题正受到越来越多关注。 然而现有研究在问题设定、测试数据、评估指标等方面差异巨大,且不少先进算法尚未开源,导致研究社区缺乏一个能够公平、系统评估算法性能与真实可用性的统一基准体系。
12/19/2025 11:53:00 AM 机器之心
SIGGRAPH Asia 2025 | 只用一部手机创建和渲染高质量3D数字人

SIGGRAPH Asia 2025 | 只用一部手机创建和渲染高质量3D数字人

在计算机图形学、三维视觉、虚拟人、XR 领域,SIGGRAPH 是毫无争议的 “天花板级会议”。 SIGGRAPH Asia 作为 SIGGRAPH 系列两大主会之一,每年只接收全球最顶尖研究团队的成果稿件,代表着学术与工业界的最高研究水平与最前沿技术趋势。 我们是淘宝技术 - Meta 技术团队,在 3D、XR、3D 真人数字人和三维重建等方向拥有深厚的技术积累和业务沉淀,我们自研了专业的多视角拍摄影棚,在今年 CVPR 2025 会议上作为 Highlight Paper 发表了 TaoAvatar ,并在淘宝未来旗舰店中实现了业内首个 3D 真人导购体验,下面视频展示了杭州西溪园区 C 区淘宝未来旗舰店的精彩瞬间,欢迎大家到来访园区进行体验。
12/18/2025 6:33:00 PM 机器之心
北大发布 ManualVLA:首个长程「生成–理解–动作」一体化模型,实现从最终状态自主生成说明书并完成操纵

北大发布 ManualVLA:首个长程「生成–理解–动作」一体化模型,实现从最终状态自主生成说明书并完成操纵

视觉–语言–动作(VLA)模型在机器人场景理解与操作上展现出较强的通用性,但在需要明确目标终态的长时序任务(如乐高搭建、物体重排)中,仍难以兼顾高层规划与精细操控。 针对这一问题,北京大学、香港中文大学与至简动力团队提出了全新的「生成–理解–动作」一体化模型 ManualVLA。 论文题目:ManualVLA: A Unified VLA Model for Chain-of-Thought Manual Generation and Robotic Manipulation论文链接:: π0 等端到端模型在处理复杂长程任务时仍面临的推理与执行割裂问题,ManualVLA 摒弃了将「高层次规划」与「动作生成」拆分的传统分层级联方案,构建了全新通用基础模型 Mixture-of-Transformers (MoT) 架构,在同一模型中统一多专家模块,实现多模态生成与动作执行的紧密协同。
12/18/2025 5:19:00 PM 机器之心
比LoRA更快更强,全新框架LoFA上线,秒级适配大模型

比LoRA更快更强,全新框架LoFA上线,秒级适配大模型

本文第一作者郝一鸣,香港中文大学(深圳)GAP-Lab 在读博士生。 本文共同第一作者为许牧天,于香港中文大学(深圳)取得博士学位。 导师韩晓光教授,为本文通讯作者。
12/18/2025 10:20:00 AM 机器之心
分割一切、3D重建一切还不够,Meta开源SAM Audio分割一切声音

分割一切、3D重建一切还不够,Meta开源SAM Audio分割一切声音

继 SAM(Segment Anything Model)、SAM 3D 后,Meta 又有了新动作。 深夜,Meta 放出音频分割模型 SAM Audio,其通过多模态提示(无论是文本、视觉,还是标注时间片段),让人们能够轻松地从复杂的音频混合中分离出任意声音,从而彻底改变音频处理方式。 SAM Audio 的核心是 Perception Encoder Audiovisual(PE-AV),这是推动其实现业界领先性能的技术引擎。
12/17/2025 5:24:00 PM 机器之心
经验记忆黑科技:LightSearcher让AI工具调用减39.6%、推理快48.6%

经验记忆黑科技:LightSearcher让AI工具调用减39.6%、推理快48.6%

如今,以 DeepSeek-R1 为代表的深度思考大模型能够处理复杂的推理任务,而DeepSearch 作为深度思考大模型的核心搜索器,在推理过程中通过迭代调用外部搜索工具,访问参数边界之外的最新、领域特定知识,从而提升推理的深度和事实可靠性。 然而,现有的 RL 驱动的深度思考大模型系统常常面临准确率与效率的「跷跷板」困境:频繁调用搜索工具提升准确性,却带来计算开销和效率低下。 具体而言,高频调用外部搜索工具虽能补充实时信息、提升推理准确率,但使得推理延迟大幅升高,等待时间可达几十秒至几分钟。
12/17/2025 2:28:00 PM 机器之心
VGGT4D:无需训练,挖掘3D基础模型潜力,实现4D动态场景重建

VGGT4D:无需训练,挖掘3D基础模型潜力,实现4D动态场景重建

如何让针对静态场景训练的 3D 基础模型(3D Foundation Models)在不增加训练成本的前提下,具备处理动态 4D 场景的能力? 来自香港科技大学(广州)与地平线 (Horizon Robotics) 的研究团队提出了 VGGT4D。 该工作通过深入分析 Visual Geometry Transformer (VGGT) 的内部机制,发现并利用了隐藏在注意力层中的运动线索。
12/17/2025 10:32:00 AM 机器之心
浙大联手字节:开源大规模指令跟随视频编辑数据集OpenVE-3M

浙大联手字节:开源大规模指令跟随视频编辑数据集OpenVE-3M

本文的作者分别来自浙江大学和字节跳动。 第一作者何昊阳是来自浙江大学的博士生,研究方向聚焦于视频生成与编辑。 通讯作者为浙江大学谢磊教授。
12/17/2025 10:19:00 AM 机器之心
PPO-Clip的「盲点」被补齐了?快手提出熵比裁剪方法,从局部约束到全局稳定的关键一跃

PPO-Clip的「盲点」被补齐了?快手提出熵比裁剪方法,从局部约束到全局稳定的关键一跃

本研究由快手科技语言大模型团队完成,核心作者苏振鹏,潘雷宇等。 快手语言大模型团队聚焦在基础语言大模型研发、Agent RL 等前沿技术创新等方向,积累务实的探索 AGI 的能力边界,并不断推进 AI 领域新技术和新产品的发展。 此前,该团队已开源了 Klear-46B-A2.5B 和 Klear-Reasoner-8B 等模型,其中 Klear-Reasoner-8B 在数学和代码的基准测试上达到了同参数级别模型的 SOTA 效果。
12/16/2025 6:40:00 PM 机器之心
所有大模型,都学物理学:北大物理系一篇研究,震撼了AI圈

所有大模型,都学物理学:北大物理系一篇研究,震撼了AI圈

LLM 智能体很赞,正在成为一种解决复杂难题的强大范式。 不过,这种成功目前更多还停留在「经验主义」的工程实践层面 —— 我们知道它好用,但往往不知道它在宏观上为何如此运作。 那么,我们是否能找到一个理论框架,像物理学描述自然界那样,去理解和统一智能体的宏观动力学(macroscopic dynamics)?
12/16/2025 5:08:00 PM 机器之心
临床PK完胜ChatGPT-5!国内团队造出首个OCT影像AI系统

临床PK完胜ChatGPT-5!国内团队造出首个OCT影像AI系统

通用大模型(LLM)的狂飙突进,终于在医疗垂直领域的「最后一公里」撞上了硬墙。 虽然 ChatGPT 在 USMLE(美国执业医师资格考试)中表现优异,但在面对需要「火眼金睛」和「毫厘必争」的心脏手术台上,通用大模型的表现究竟如何? 近日,一项由空军军医大学唐都医院李妍教授团队牵头,与深圳清华大学研究院朱锐团队联合完成的 COMPARE 研究在 arXivs 上发表预印版。
12/16/2025 1:18:00 PM 机器之心
56倍加速生成式策略:西交大提出EfficientFlow,迈向高效具身智能

56倍加速生成式策略:西交大提出EfficientFlow,迈向高效具身智能

本文共同第一作者为西安交通大学硕士生常建磊和博士生梅若风。 柯炜为西安交通大学副教授。 论文通讯作者为西安交通大学教授许翔宇,其研究方向涵盖三维视觉、生成式 AI 与具身智能(个人主页:)。
12/16/2025 1:12:00 PM 机器之心