工程

ICCV 2025 | HERMES：首个统一3D场景理解与生成的世界模型

本文第一作者周鑫、共同第一作者梁定康，均为华中科技大学博士生，导师为白翔教授。合作者包括华中科技大学涂思凡，旷视科技丁宜康，迈驰智行陈习武、谭飞杨，香港大学赵恒爽助理教授。在复杂的城市场景中，HERMES 不仅能准确预测未来三秒的车辆与环境动态（如红圈中标注的货车），还能对当前场景进行深度理解和问答（如准确识别出 “星巴克” 并描述路况）。

8/14/2025 1:13:00 PM

机器之心

破解「长程智能体」RL训练难题，腾讯提出RLVMR框架，让7B模型「思考」比肩GPT-4o

本论文的主要作者来自腾讯混元 AI 数字人团队 (Tencent Hunyuan AI Digital Human)。该团队致力于打造「有智商、有情商、有温度的数字人」，旨在为用户提供高度拟人、可信赖的数字伙伴，进而实现富有温度与信任的情感交互。自主智能体（Agents）正朝着能够处理复杂长程任务（Long-Horizon Tasks）的通用智能（AGI）迈进，但许多研究者发现了一个尴尬的现实：很多智能体虽然能完成任务，却像个「只会蒙答案的学生」，其成功往往依赖于运气和低效的试错，而非真正高效、可泛化的推理能力。

8/14/2025 10:14:00 AM

机器之心

告别Transformer，重塑机器学习范式：上海交大首个「类人脑」大模型诞生

本文一作赵海，上海交通大学计算机学院长聘教授、博士生导师，上海交通大学通用人工智能（AGI）研究所所长。研究兴趣：自然语言处理、人工智能和大模型。据 MIT 主办的世界大学计算机学科排行榜 csrankings 数据统计，上海交通大学计算机学科排名国内第三，赵海教授在其中的 AI 和 NLP 方向的论文贡献度第一，占整个交大标准发表总量 1/4。

8/13/2025 5:50:00 PM

机器之心

研究者警告：强化学习暗藏「策略悬崖」危机，AI对齐的根本性挑战浮现

本文作者为徐兴成博士，任上海人工智能实验室青年研究员，北京大学与英国牛津大学联合培养数学博士，上海市启明星项目（扬帆专项）获得者。研究方向：大模型后训练、强化学习与基础理论研究。强化学习（RL）是锻造当今顶尖大模型（如 OpenAI o 系列、DeepSeek-R1、Gemini 2.5、Grok 4、GPT-5）推理能力与对齐的核心 “武器”，但它也像一把双刃剑，常常导致模型行为脆弱、风格突变，甚至出现 “欺骗性对齐”、“失控” 等危险倾向。

8/13/2025 1:01:00 PM

机器之心

让强化学习快如闪电：FlashRL一条命令实现极速Rollout，已全部开源

在今年三月份，清华 AIR 和字节联合 SIA Lab 发布了 DAPO，即 Decoupled Clip and Dynamic sAmpling Policy Optimization（解耦剪辑和动态采样策略优化）。这是一个可实现大规模 LLM 强化学习的开源 SOTA 系统，使用该算法，该团队成功让 Qwen2.5-32B 模型在 AIME 2024 基准上获得了 50 分，我们也做了相关报道。论文地址：：，伊利诺伊大学香槟分校博士，微软研究院的首席研究员刘力源、清华大学校友，加州大学圣地亚哥分校计算机科学与工程学院博士生姚峰团队在强化学习的研究中更进一步。

8/12/2025 6:36:00 PM

机器之心

ICCV 2025 | 小红书AIGC团队提出图像和视频换脸新算法DynamicFace

本论文主要作者来自小红书 AIGC 团队（Dynamic-X-Lab），Dynamic‑X‑LAB 是一个专注于 AIGC 领域的研究团队，致力于推动姿态驱动的人像生成与视频动画技术。他们以高质量、高可控性的生成模型为核心，围绕文生图（t2i）、图像生成（i2i）、图像转视频（i2v）和风格迁移加速等方向展开研究，并通过完整的开源方案分享给开发者与研究者社区。论文标题：DynamicFace: High-Quality and Consistent Face Swapping for Image and Video using Composable 3D Facial Priors论文链接：：，扩散模型在图像与视频合成领域展现出前所未有的生成能力，为人脸生成与编辑技术按下了加速键。

8/12/2025 11:27:00 AM

机器之心

Lumina-mGPT 2.0：自回归模型华丽复兴，媲美顶尖扩散模型

上海人工智能实验室等团队提出Lumina-mGPT 2.0 —— 一款独立的、仅使用解码器的自回归模型，统一了包括文生图、图像对生成、主体驱动生成、多轮图像编辑、可控生成和密集预测在内的广泛任务。本文第一作者辛毅为南京大学 & 上海创智学院博士生，现于上海人工智能实验室实习，研究方向为图像 / 视频生成、多模态生成与理解统一等。通讯作者为上海人工智能实验室青年科学家 — 高鹏。

8/12/2025 10:45:00 AM

机器之心

4D空间智能：AI如何一步步「看懂」时空结构？一篇综述解析通往四维世界的五大层次

4D 空间智能重建是计算机视觉领域的核心挑战，其目标在于从视觉数据中还原三维空间的动态演化过程。这一技术通过整合静态场景结构与时空动态变化，构建出具有时间维度的空间表征系统，在虚拟现实、数字孪生和智能交互等领域展现出关键价值。当前研究主要围绕两大技术维度展开：基础重建层面聚焦深度估计、相机定位、动态点云等底层视觉要素的精准提取；高阶理解层面则致力于解析场景组件的时空关联与物理约束。

8/11/2025 8:18:00 PM

机器之心

ARPO：智能体强化策略优化，让Agent在关键时刻多探索一步

本文的第一作者是董冠霆，目前就读于中国人民大学高瓴人工智能学院，博士一年级，导师为窦志成教授和文继荣教授。他的研究方向主要包括大语言模型推理，多智能体强化学习、深度搜索智能体等。在国际顶级会议如 ICLR、ACL、AAAI 等发表了多篇论文，并在快手大模型应用组、阿里通义千问组等大模型团队进行实习。

8/9/2025 11:17:00 PM

机器之心

GPT-5真的拉胯吗？机器之心一手实测，网友：还我4o、还我4.5

一觉醒来，朋友圈被 GPT-5 刷了屏。在昨晚长达一个多小时的发布直播中，OpenAI 介绍了 GPT-5 的性能，演示了诸多实用案例，在此不赘述，感兴趣的朋友可以移步：刚刚，奥特曼发布 GPT-5！人人免费用「博士级」智能，基准图错误遭全网吐槽。

8/8/2025 4:50:00 PM

机器之心

DeepSeek的GRPO会导致模型崩溃？看下Qwen3新范式GSPO

众所周知，大型语言模型的训练通常分为两个阶段。第一阶段是「预训练」，开发者利用大规模文本数据集训练模型，让它学会预测句子中的下一个词。第二阶段是「后训练」，旨在教会模型如何更好地理解和执行人类指令。

8/7/2025 9:46:00 PM

机器之心

让AI读懂「言外之意」：AI4SG团队发布首个心理健康污名语料库，破解隐性偏见识别难题

论文第一作者 Han Meng 是新加坡国立大学博士生，从事心理学构建的计算方法研究。通讯作者 Yi-Chieh Lee 是新加坡国立大学助理教授，在对话式人工智能、人机交互和心理健康技术领域开展研究工作。共同作者 Renwen Zhang 是南洋理工大学助理教授，专注于计算传播学研究，为本研究提供了传播学视角。

8/7/2025 9:27:00 PM

机器之心

人大高瓴-华为诺亚：大语言模型智能体记忆机制的系列研究

本系列工作第一作者张泽宇，中国人民大学博士生，研究方向为大语言模型智能体的记忆机制和个性化；谭浩然，中国人民大学硕士生，研究方向为大语言模型智能体。陈旭，中国人民大学预聘副教授，研究方向包括大语言模型，信息检索等。近期，基于大语言模型的智能体（LLM-based agent）在学术界和工业界中引起了广泛关注。

8/7/2025 11:06:00 AM

机器之心

ICCV 2025 | SeaS: 工业异常生成+正常合成+精准掩码大一统框架，指标全面碾压SOTA

论⽂标题：SeaS: Few-shot Industrial Anomaly Image Generation with Separation and Sharing Fine-tuning作者：Zhewei Dai, Shilei Zeng, Haotian Liu, Xurui Li, Feng Xue, Yu Zhou论⽂链接：：⼯业异常⽣成迎来「全能选⼿」当前先进制造领域的产线良率往往超过 98%，因此异常样本（也称为缺陷样本）的搜集和标注已成为⼯业质检的核⼼瓶颈，过少的异常样本显著限制了模型的检测能⼒，利⽤⽣成模型扩充异常样本集合正逐渐成为产业界的主流选择，但现有⽅法存在明显局限：要么仅能完成单⼀任务（如只⽣成异常或正常产品），要么需针对不同异常类型单独建模，不仅⽣成能⼒受限，还因依赖⼤量专⽤模型难以适应复杂场景。为此，华中科技⼤学慢⼯团队（SLOW Team）提出统⼀的少样本⼯业⽣成模型 SeaS。该模型依托 U-Net 的差异化学习能⼒，精准捕捉正常产品的细微变化与异常区域的丰富差异，仅需要 1-3 张训练样本，通过单⼀模型即可同步实现多样化异常⽣成、全局⼀致的正常产品合成及精确异常掩码标注⽣成，为⼯业场景⽣成任务建⽴了新的技术基准，有效推动了相关领域的技术进步。

8/6/2025 1:04:00 PM

机器之心

北大、蚂蚁三个维度解构高效隐私保护机器学习：前沿进展+发展方向

本项目的领导者为李萌，于 2022 年加入北京大学人工智能研究院和集成电路学院创建高效安全计算实验室。他曾任职于美国 Facebook 公司的 Reality Lab，作为技术主管主导虚拟现实和增强现实设备中的高效 AI 算法和芯片研究。他的研究兴趣集中于高效、安全人工智能加速算法和芯片，旨在通过算法到芯片的跨层次协同设计和优化，为人工智能构建高能效、高可靠、高安全的算力基础，曾获 DAC 生成式人工智能系统设计竞赛第一名、AICAS 大模型系统设计竞赛第一名、CCF 集成电路 Early Career Award、欧洲设计自动化协会最佳博士论文等一系列奖项。

8/6/2025 10:32:00 AM

机器之心

南大周志华团队最新力作：一个算法通吃所有，在线学习迎来新范式？

世界是动态变化的。为了理解这个动态变化的世界并在其中运行，AI 模型必须具备在线学习能力。为此，该领域提出了一种新的性能指标 —— 适应性遗憾值（adaptive regret），其定义为任意区间内的最大静态遗憾值。

8/5/2025 1:28:00 PM

机器之心

全球首个人形机器人通用视觉感知系统，Humanoid Occupancy建立多模态环境理解新范式

第一作者崔巍，北京人形机器人创新中心感知算法负责人；共同一作王浩宇，极佳科技算法工程师，项目负责人；通讯作者张强，北京人形机器人创新中心学术委员会主任。凭借类人化的结构设计与运动模式，人形机器人被公认为最具潜力融入人类环境的通用型机器人。其核心任务涵盖操作 (manipulation)、移动 (locomotion) 与导航 (navigation) 三大领域，而这些任务的高效完成，均以机器人对自身所处环境的全面精准理解为前提。

8/5/2025 1:21:00 PM

机器之心

3D-R1：让AI理解3D世界的下一步

在人工智能快速发展的今天，我们已逐渐习惯于让 AI 识别图像、理解语言，甚至与之对话。但当我们进入真实三维世界，如何让 AI 具备「看懂场景」、「理解空间」和「推理复杂任务」的能力？这正是 3D 视觉语言模型（3D VLM）所要解决的问题。

8/4/2025 8:12:00 PM

机器之心

资讯热榜

GGUF 是什么？一文看懂大模型里最火的模型格式免费！让图片放大不失真的位图转矢量图神器 Tmttool AI应用新纪元：2025中国AI应用排行榜榜单揭晓丨2025年1月免注册免费用！17种AI绘图模型一站式体验平台LMArena Sora、可灵、即梦哪家强？AI视频软件深度测评！可灵、即梦、海螺、Vidu哪家强？4大AI视频神器深度测评借助 AgentCore Memory 为智能体应用添加记忆功能深度拆解！这可能是全网最详细的AI视频创作教程

标签云

AI 人工智能 OpenAI AIGC 模型 ChatGPT DeepSeek 谷歌 AI绘画大模型机器人数据 Midjourney AI新词开源 Meta 微软智能用户 GPT 学习技术智能体马斯克 Gemini Anthropic 英伟达图像 AI创作训练 LLM 论文代码算法 AI for Science Agent 苹果 Claude 芯片腾讯 Stable Diffusion 蛋白质开发者 xAI 具身智能生成式神经网络机器学习 3D 人形机器人 RAG AI视频大语言模型研究百度 Sora 生成 GPU 工具华为计算字节跳动 AI设计 AGI 大型语言模型搜索视频生成生成式AI 场景 DeepMind 深度学习特斯拉 AI模型架构 MCP Transformer 亚马逊编程视觉预测