AI在线 AI在线

工程

斯坦福、英伟达和伯克利提出具身Test-Time Scaling Law

本文的第一作者为斯坦福大学博士生 Jacky Kwok。 共同通讯作者包括英伟达自动驾驶研究总监 Marco Pavone、斯坦福大学计算机系教授兼 DeepMind 科学家 Azalia Mirhoseini,以及 UC 伯克利教授 Ion Stoica。 Vision-Language-Action(VLA)模型在视觉运动控制中展现出了卓越能力,但如何在复杂的真实世界中保持鲁棒性仍是一个长期挑战。
10/14/2025 2:28:00 PM
机器之心

景不动人动,MLLM如何面对「移步换景」的真实世界?OST-Bench揭示多模态大模型在线时空理解短板

多模态大语言模型(MLLMs)已在视觉与语言模态融合的感知与推理任务中展现出强大能力。 而上海人工智能实验室、上海交通大学、香港大学、香港中文大学的研究者们提出的的 OST-Bench, 则是从智能体探索场景的动态在线视角出发,为大模型的能力提出了新的挑战。 对比离线 / 静态的空间智能基准,OST-Bench 更精准地反映了具身感知在真实世界中的核心挑战。
10/14/2025 2:23:00 PM
机器之心

100美元、8000行代码手搓ChatGPT,Karpathy最新开源项目爆火,一夜近5k star

「这是我写过最疯狂的代码之一。 」本周一,AI 领域大神 Andrej Karpathy 发布了自己的最新开源项目,瞬间引来了整个社区的关注。 这个名为 nanochat 的项目据说可以教你从零开始,以 100 美元的成本自建 ChatGPT。
10/14/2025 10:30:00 AM
机器之心

NeurIPS 25 | GRPO进阶版来了,GVPO重构大模型后训练范式

大模型后训练(post-training)正在成为 AI 进化的关键一环。 从最早的 SFT(监督微调),再到近来大火的 GRPO,一条核心主线贯穿始终:如何让大模型具有更强的推理能力、更好地对齐人类偏好,同时保持稳定和高效。 然而,GRPO 虽然在 DeepSeek-R1 等项目中大放异彩,但其训练不稳定、超参数敏感的问题一直限制其大规模落地。
10/14/2025 10:27:00 AM
机器之心

推理速度10倍提升,蚂蚁集团开源业内首个高性能扩散语言模型推理框架dInfer

近日,蚂蚁集团正式开源业界首个高性能扩散语言模型(Diffusion Large Language Model,dLLM)推理框架 dInfer。 在基准测试中,dInfer 将 dLLM 的推理速度相比于 Fast-dLLM 提升了 10 倍以上,并在关键的单批次(batch size=1)推理场景下,作为首个开源框架实现了大幅超越经过高度优化的自回归(AR)模型的性能里程碑,在 HumanEval 上达到 1011 tokens / 秒的吞吐量 。 dInfer 通过一系列算法与系统协同创新,攻克了 dLLM 的推理瓶颈,兑现了其内生并行生成带来的推理效率潜力。
10/13/2025 5:40:00 PM
机器之心

LLaVA-OneVision-1.5全流程开源,8B模型预训练只需4天、1.6万美元

LLaVA 于 2023 年提出,通过低成本对齐高效连接开源视觉编码器与大语言模型,使「看图 — 理解 — 对话」的多模态能力在开放生态中得以普及,明显缩小了与顶级闭源模型的差距,标志着开源多模态范式的重要里程碑。 LLaVA 用低成本对齐打通「视觉编码器 大语言模型」起步,LLaVA‑1.5 以更大更干净的数据与高分辨率输入强化理解,LLaVA‑NeXT 拓展 OCR / 数理与多场景任务;随后分支为 LLaVA‑NeXT‑Video 处理时序视频、多帧推理,及 LLaVA-NeXT-Interleave 支持交替多图文与跨图联推;最终在 LLaVA‑OneVision 汇聚为统一接口,覆盖图像 / 文档 / 图表 / 多图 / 视频,兼顾效果与效率。 尽管多模态对齐的接口与架构趋于收敛,真正「可复现」的开源路径仍与「仅开放权重」存在间距。
10/13/2025 2:48:00 PM
机器之心

为MoE解绑:全新「专家即服务」推理架构发布,超细粒度扩展锐减37.5%成本

本文第一作者刘子铭为新加坡国立大学三年级博士生,本科毕业于北京大学,研究方向为机器学习系统中的并行推理与训练效率优化。 通信作者为上海创智学院冯思远老师和新加坡国立大学尤洋老师。 共同作者来自于上海奇绩智峰智能科技有限公司,北京基流科技有限公司等。
10/13/2025 1:03:00 PM
机器之心

NeurIPS 2025 Spotlight | GeoSVR:稀疏体素的新潜力——超越3DGS系列的高精度三维表面重建

在计算机视觉与图形学中,表面重建是一个长期未解的难题:给定一组多视角图像,能否重建出高精度、几何清晰、细节丰富的 3D 模型? 近年来,NeRF、SDF 与 3D Gaussian Splatting 等方法大放异彩,让 AI 能从图像中恢复出三维世界。 但随着相关技术路线的发展与完善,瓶颈问题也随之浮现:初始化依赖:3DGS 高效,但强烈依赖高精度和覆盖度的点云初始化,点云缺陷会直接传递为几何误差与细节缺失。
10/13/2025 12:59:00 PM
机器之心

Qwen3 变身扩散语言模型?不从零训练也能跑,30B参数创纪录

扩散语言模型(Diffusion Language Models,DLM)一直以来都令研究者颇感兴趣,因为与必须按从左到右顺序生成的自回归模型(Autoregressive, AR)不同,DLM 能实现并行生成,这在理论上可以实现更快的生成速度,也能让模型基于前后文更好地理解生成语境。 然而,尽管其潜力巨大,DLM 的训练仍然充满挑战,主要原因是它在 scaling 上的效率相对低于 AR 模型。 例如,直接训练 DLM 需要在有限的数据集上进行更多次迭代,才能超越直接训练的 AR 模型。
10/12/2025 4:00:00 PM
机器之心

LLM越狱攻击的威胁被系统性高估? 基于分解式评分的「越狱评估新范式」出炉

JADES 由德国亥姆霍兹信息安全中心 (CISPA),富莱睿(Flexera)和西安交通大学的研究团队合作完成。 本文的通讯作者为 CISPA 教授张阳。 引言回想一下,老师会如何批改考试中的开放题:如果考生只在开头写「答:」,但是后面却没有给出答案,当然不能得分;反之,如果他开头说「我不会」,却在后面写出了正确答案,那就该得分。
10/12/2025 3:51:00 PM
机器之心

RL 将如何提高具身大模型 VLA 泛化性?清华大学团队NeurIPS 2025文章分析 RL 与 SFT 泛化性差异

在具身智能领域,视觉 - 语言 - 动作(VLA)大模型正展现出巨大潜力,但仍面临一个关键挑战:当前主流的有监督微调(SFT)训练方式,往往让模型在遇到新环境或任务时容易出错,难以真正做到类人般的泛化。 但在大语言模型(LLM/VLM)领域,强化学习(RL)已被证明能显著提升模型的泛化能力。 RL 究竟能为 VLA 带来哪些独特的泛化优势?
10/12/2025 3:44:00 PM
机器之心

NeurIPS 2025 Spotlight | PhysX-3D:面向真实物理世界的3D资产生成范式

本论文第一作者曹子昂,南洋理工大学博士二年级,研究方向是计算机视觉、3D AIGC 和具身智能。 主要合作者为来自南洋理工大学陈昭熹和来自上海人工智能实验室的潘亮,通讯作者为南洋理工大学刘子纬教授。 论文链接::ht 代码: 生成正从纯虚拟走向物理真实,现有的 3D 生成方法主要侧重于几何结构与纹理信息,而忽略了基于物理属性的建模。
10/11/2025 4:26:00 PM
机器之心

算力成本大降!马尔可夫思考机来了,LLM推理成本直接降为线性

用强化学习让 LLM 具备推理(reasoning)能力确实很有效,但耗费颇高。 这类模型在回答问题前会生成一长串的思维链(LongCoT);并且增加「思考 token」 的数量能够提升模型的能力。 与任何强化学习问题一样,它存在一个决定轨迹如何生成的环境。
10/10/2025 2:52:00 PM
机器之心

Code2Video:代码驱动、智能体协同、精准可控的教学视频生成

本研究由新加坡国立大学 ShowLab 团队主导完成。 共一作者 Yanzhe Chen 陈彦哲(博士生)与 Kevin Qinghong Lin 林庆泓(博士生)均来自 ShowLab@NUS,分别聚焦于多模态理解以及智能体(Agent)研究。 项目负责人为新加坡国立大学校长青年助理教授 Mike Zheng Shou 寿政。
10/10/2025 2:48:00 PM
机器之心

协同加速,多机器人协作不再「慢半拍」!软硬一体化框架ReCA破解具身智能落地效率瓶颈

从仓库里的物流机器人到科幻电影中的「贾维斯」,我们对智能机器人的想象从未停止。 学术界在模拟器里实现了越来越复杂的协作任务,工业界也让机器人学会了韦伯斯特空翻。 然而,一个残酷的现实是:当下的机器「人」更像是提线木偶,而非真正自主的智能体。
10/10/2025 11:55:00 AM
机器之心

NeurIPS 2025 Spotlight | 只需一条演示,DexFlyWheel框架让机器人学会「自我造数据」

当我们谈论机器人灵巧操作时,数据稀缺始终是悬浮在头顶的达摩克利斯之剑。 在大模型、自动驾驶领域纷纷依靠海量数据 “涌现” 出强大能力的今天,机器人灵巧操作依然困在数据瓶颈。 近期,北京大学、哈尔滨工业大学联合 PsiBot 灵初智能提出首个自我增强的灵巧操作数据生成框架 ——DexFlyWheel。
10/9/2025 12:59:00 PM
机器之心

机器人「看片」自学新技能:NovaFlow从生成视频中提取动作流,实现零样本操控

本文共同第一作者为李鸿宇(布朗大学博士生)和孙凌峰(Robotics and AI Institute 研究员,博士毕业于加州大学伯克利分校)。 通讯作者付佳慧在 Robotics and AI Institute 任研究员,博士毕业于麻省理工学院。 George Konidaris 为布朗大学副教授。
10/9/2025 10:45:00 AM
机器之心

Being-VL的视觉BPE路线:把「看」和「说」真正统一起来

在多模态模型里,CLIP-style encoder 往往把视觉表征过早地拉近到文本空间:对于抽象层面的问答,如总结图片大致内容,这样的表征其实是没有什么问题的,但一旦追问与语言无强依赖的细节,模型就更易出现幻觉。 根本原因之一,是在文本空间对齐之前,原生视觉结构已被不可逆地压缩 / 丢失,而语言模型不得不「二次解码」来自他模态的 embedding,导致对齐脆弱、推理链条变长。 为此,北大、UC San Diego 和 BeingBeyond 联合提出一种新的方法——Being-VL 的视觉 BPE 路线。
10/9/2025 10:40:00 AM
机器之心