AI在线 AI在线

ICCV 2025

ICCV 2025 | 基于时序增强关系敏感知识迁移的弱监督动态场景图生成

该论文的第一作者和通讯作者均来自北京大学王选计算机研究所,第一作者为博士生徐铸,通讯作者为博士生导师刘洋。 团队近年来在 TPAMI、IJCV、CVPR、ICML 等顶会上有多项代表性成果发表,多次荣获国内外多模态理解预生成竞赛冠军,和国内外知名高校、科研机构广泛开展合作。 本文主要介绍来自该团队的最新论文:TRKT: Weakly Supervised Dynamic Scene Graph Generation with Temporal-enhanced Relation-aware Knowledge Transferring。
9/3/2025 4:30:00 PM
机器之心

ICCV 2025 | 打造通用工具智能体的基石:北大提出ToolVQA数据集,引领多模态多步推理VQA新范式

本文第一作者是来自北京大学的本科生殷绍峰,合作者包含来自北京大学的博士生雷廷,通讯作者为北京大学王选计算机研究所研究员、助理教授刘洋。 本文主要介绍来自该团队的最新论文:ToolVQA: A Dataset for Multi-step Reasoning VQA with External Tools。 本文提出了一个旨在提升基础模型工具使用能力的大型多模态数据集 ——ToolVQA。
8/22/2025 1:39:00 PM
机器之心

ICCV 2025 | ECD:高质量合成图表数据集,提升开源MLLM图表理解能力

本文第一作者杨昱威,来自澳大利亚国立大学,合作者包括章泽宇(澳大利亚国立大学)、侯云钟(澳大利亚国立大学)、李卓婉(约翰霍普金斯大学)、Gaowen Liu(思科)、Ali Payani(思科)、丁源森(俄亥俄州立大学)以及郑良(澳大利亚国立大学)。 背景与动机在科研、新闻报道、数据分析等领域,图表是信息传递的核心载体。 要让多模态大语言模型(MLLMs)真正服务于科学研究,必须具备以下两个能力:1.
8/21/2025 9:22:00 PM
机器之心

ICCV 2025 | HERMES:首个统一3D场景理解与生成的世界模型

本文第一作者周鑫、共同第一作者梁定康,均为华中科技大学博士生,导师为白翔教授。 合作者包括华中科技大学涂思凡,旷视科技丁宜康,迈驰智行陈习武、谭飞杨,香港大学赵恒爽助理教授。 在复杂的城市场景中,HERMES 不仅能准确预测未来三秒的车辆与环境动态(如红圈中标注的货车),还能对当前场景进行深度理解和问答(如准确识别出 “星巴克” 并描述路况)。
8/14/2025 1:13:00 PM
机器之心

ICCV 2025 | 小红书AIGC团队提出图像和视频换脸新算法DynamicFace

本论文主要作者来自小红书 AIGC 团队(Dynamic-X-Lab),Dynamic‑X‑LAB 是一个专注于 AIGC 领域的研究团队,致力于推动姿态驱动的人像生成与视频动画技术。 他们以高质量、高可控性的生成模型为核心,围绕文生图(t2i)、图像生成(i2i)、图像转视频(i2v)和风格迁移加速等方向展开研究,并通过完整的开源方案分享给开发者与研究者社区。 论文标题:DynamicFace: High-Quality and Consistent Face Swapping for Image and Video using Composable 3D Facial Priors论文链接::,扩散模型在图像与视频合成领域展现出前所未有的生成能力,为人脸生成与编辑技术按下了加速键。
8/12/2025 11:27:00 AM
机器之心

ICCV 2025 | 机器人自主探索未知复杂空间?GLEAM破解主动探索建图的泛化难题

本文一作为陈骁,香港中文大学 MMLab - 上海人工智能实验室具身智能中心联培博士生,研究方向是三维计算机视觉和具身智能,导师为薛天帆教授。 个人主页:xiao-chen.tech/。 研究背景当人类走入陌生房间时,会通过移动和观察来掌握室内结构。
8/11/2025 3:51:00 PM
机器之心

ICCV 2025 | 新型后门攻击直指Scaffold联邦学习,NTU联手0G Labs揭示中心化训练安全漏洞

通过使用控制变元(control variate)来校准每个客户端的本地梯度,Scaffold 已被广泛认为是缓解联邦学习中数据异质性影响的一种强大方案。 但尽管 Scaffold 实现了显著的性能提升,这种优越性是以增加安全漏洞为代价的。 本文中,NTU、0G Labs等机构提出了 BadSFL,这是首个针对 Scaffold 的后门攻击方法,它能够将原本良性的客户端转化为攻击的帮凶以放大攻击效果。
8/9/2025 12:52:00 PM
机器之心

ICCV 2025 | SeaS: 工业异常生成+正常合成+精准掩码大一统框架,指标全面碾压SOTA

论⽂标题:SeaS: Few-shot Industrial Anomaly Image Generation with Separation and Sharing Fine-tuning作者:Zhewei Dai, Shilei Zeng, Haotian Liu, Xurui Li, Feng Xue, Yu Zhou论⽂链接::⼯业异常⽣成迎来「全能选⼿」当前先进制造领域的产线良率往往超过 98%,因此异常样本(也称为缺陷样本)的搜集和标注已成为⼯业质检的核⼼瓶颈,过少的异常样本显著限制了模型的检测能⼒,利⽤⽣成模型扩充异常样本集合正逐渐成为产业界的主流选择,但现有⽅法存在明显局限:要么仅能完成单⼀任务(如只⽣成异常或正常产品),要么需针对不同异常类型单独建模,不仅⽣成能⼒受限,还因依赖⼤量专⽤模型难以适应复杂场景。 为此,华中科技⼤学慢⼯团队(SLOW Team)提出统⼀的少样本⼯业⽣成模型 SeaS。 该模型依托 U-Net 的差异化学习能⼒,精准捕捉正常产品的细微变化与异常区域的丰富差异,仅需要 1-3 张训练样本,通过单⼀模型即可同步实现多样化异常⽣成、全局⼀致的正常产品合成及精确异常掩码标注⽣成,为⼯业场景⽣成任务建⽴了新的技术基准,有效推动了相关领域的技术进步。
8/6/2025 1:04:00 PM
机器之心

机器人不只会抓和放!北京大学X银河通用「世界-动作模型」赋能全面泛化的非抓握技能

本文的作者团队来自北京大学和银河通用机器人公司。 第一作者为北京大学计算机学院前沿计算研究中心博士生吕江燃,主要研究方向为具身智能,聚焦于世界模型和机器人的灵巧操作,论文发表于 ICCV,TPAMI,RSS,CoRL,RAL 等机器人顶会顶刊。 本文的通讯作者为北京大学计算机学院教授王亦洲和北京大学助理教授、银河通用创始人及CTO 王鹤。
8/1/2025 10:28:00 AM
机器之心

ICCV 2025|UV-CoT:无监督视觉推理新突破,偏好优化重塑图像级思维链

本文第一作者是来自南洋理工大学的博士生赵克森,主要研究方向为 Reinforcement Learning in MLLMs. 该论文已被 ICCV 2025 录用。 随着文本领域中思维链(Chain-of-Thought,CoT)推理机制的成功应用,研究者开始将该方法引入视觉理解任务,以提升模型的推理能力和可解释性。
7/28/2025 1:27:00 PM
机器之心

ICCV 2025|训练太复杂?对图片语义、布局要求太高?图像morphing终于一步到位

本文第一作者操雨康,南洋理工大学MMLab博士后,研究方向是3D/4D重建与生成,人体动作/视频生成,以及图像生成与编辑。 本文共同第一作者司晨阳,南京大学助理教授,研究方向是图像/视频生成,以及生成模型的优化和加速。 在图像处理领域,「图像 morphing」(图像变形)是一项常见又充满创意的任务 —— 它可以让两张风格迥异的图片平滑过渡、自然融合,从而生成令人惊艳的中间图像。
7/18/2025 10:40:00 AM
机器之心

ICCV 2025 | 清华&腾讯混元X发现「视觉头」机制:仅5%注意力头负责多模态视觉理解

本文的主要作者来自清华大学智能视觉实验室(i-Vision Group)、腾讯混元 X 组。 本文的共同第一作者为清华大学自动化系本科生王嘉辉和博士生刘祖炎,本文的通讯作者为清华大学自动化系鲁继文教授。 多模态大模型通常是在大型预训练语言模型(LLM)的基础上扩展而来。
7/14/2025 8:19:00 PM
机器之心

ICCV 2025满分论文:一个模型实现空间理解与主动探索大统一

本论文核心团队来自北京通用人工智能研究院机器学习实验室,团队负责人李庆博士长期从事多模态理解、多模态智能体、具身智能等方向,主页:,人工智能正逐步从虚拟的互联网空间(Cyber Space)迈向真实的物理世界(Physical Space)[1]。 这一转变的核心挑战之一,是如何赋予智能体对三维空间的理解能力 [2],实现自然语言与真实物理环境的对齐(grounding)。 尽管已有的 3D 空间理解模型在视觉感知和语言对齐方面取得了显著进展,但它们普遍依赖于静态的世界的观察,缺乏对主动探索行为的建模。
7/14/2025 11:18:00 AM
机器之心

从「塑料人」到「有血有肉」:角色动画的物理革命,PhysRig实现更真实、更自然的动画角色变形效果

作者:张昊,伊利诺伊大学香槟分校博士生,研究方向为 3D/4D 重建、生成建模与物理驱动动画。 目前在 Snap 担任研究实习生,曾于 Stability AI 和上海人工智能实验室实习。 PhysRig 由 UIUC 与 Stability AI 联合完成,旨在推动角色动画迈向更真实、可控的物理解法。
7/10/2025 5:02:00 PM
机器之心

ICCV 2025 | UniOcc: 自动驾驶占用预测与推理统一数据集及基准平台

来自加州大学河滨分校(UC Riverside)、密歇根大学(University of Michigan)、威斯康星大学麦迪逊分校(University of Wisconsin–Madison)、德州农工大学(Texas A&M University)的团队在 ICCV 2025 发表首个面向自动驾驶语义占用栅格构造或预测任务的统一基准框架 UniOcc。 UniOcc 融合真实世界(nuScenes、Waymo)与仿真环境(CARLA、OpenCOOD)的多源数据,统一体素(voxel)格式与语义(semantic)标签,首次引入体素级前后向运动流标注,并支持多车协同占位预测与推理。 为摆脱伪标签(pseudo-label)评估限制,UniOcc 设计了多项免真值(ground-truth-free)指标,用于衡量物体形状合理性与时序一致性。
7/9/2025 3:36:00 PM
机器之心

AI 技术获全球顶级学术会议认可,小米 2 篇论文入选 ICCV 2025

AI在线 7 月 8 日消息,据小米技术消息,计算机视觉国际大会 ICCV 2025 论文录用结果公布,小米两篇论文凭借创新性研究成果成功入选:视频理解大模型核心技术 Q-Frame,推出行业首个动态帧选择与分辨率自适应框架,实现即插即用;持续学习框架 Analytic Subspace Routing (Any-SSR),成功解决大语言模型在持续学习领域的核心难题「灾难性遗忘」问题。 据介绍,计算机视觉国际大会 ICCV 与国际计算机视觉与模式识别会议 CVPR、欧洲计算机视觉国际会议 ECCV 并称为计算机领域世界三大顶级学术会议,每两年举办一次。 其中,ICCV 2025 年投稿量达 11239 篇,录用率为 24%。
7/8/2025 6:55:32 PM
归泷

ICCV 2025|降低扩散模型中的时空冗余,上交大EEdit实现免训练图像编辑加速

本论文共同第一作者闫泽轩和马跃分别是上海交通大学人工智能学院2025级研究生,以及香港科技大学2024级博士生。 目前在上海交通大学EPIC Lab进行科研实习,接受张林峰助理教授指导,研究方向是高效模型和AIGC。 本文主要介绍张林峰教授的团队的最新论文:EEdit⚡: Rethinking the Spatial and Temporal Redundancy for Efficient Image Editing。
7/5/2025 6:34:00 PM
机器之心
  • 1