ICCV 2025
ICCV 2025 | 清华&腾讯混元X发现「视觉头」机制:仅5%注意力头负责多模态视觉理解
本文的主要作者来自清华大学智能视觉实验室(i-Vision Group)、腾讯混元 X 组。 本文的共同第一作者为清华大学自动化系本科生王嘉辉和博士生刘祖炎,本文的通讯作者为清华大学自动化系鲁继文教授。 多模态大模型通常是在大型预训练语言模型(LLM)的基础上扩展而来。
7/14/2025 8:19:00 PM
机器之心
ICCV 2025满分论文:一个模型实现空间理解与主动探索大统一
本论文核心团队来自北京通用人工智能研究院机器学习实验室,团队负责人李庆博士长期从事多模态理解、多模态智能体、具身智能等方向,主页:,人工智能正逐步从虚拟的互联网空间(Cyber Space)迈向真实的物理世界(Physical Space)[1]。 这一转变的核心挑战之一,是如何赋予智能体对三维空间的理解能力 [2],实现自然语言与真实物理环境的对齐(grounding)。 尽管已有的 3D 空间理解模型在视觉感知和语言对齐方面取得了显著进展,但它们普遍依赖于静态的世界的观察,缺乏对主动探索行为的建模。
7/14/2025 11:18:00 AM
机器之心
从「塑料人」到「有血有肉」:角色动画的物理革命,PhysRig实现更真实、更自然的动画角色变形效果
作者:张昊,伊利诺伊大学香槟分校博士生,研究方向为 3D/4D 重建、生成建模与物理驱动动画。 目前在 Snap 担任研究实习生,曾于 Stability AI 和上海人工智能实验室实习。 PhysRig 由 UIUC 与 Stability AI 联合完成,旨在推动角色动画迈向更真实、可控的物理解法。
7/10/2025 5:02:00 PM
机器之心
ICCV 2025 | UniOcc: 自动驾驶占用预测与推理统一数据集及基准平台
来自加州大学河滨分校(UC Riverside)、密歇根大学(University of Michigan)、威斯康星大学麦迪逊分校(University of Wisconsin–Madison)、德州农工大学(Texas A&M University)的团队在 ICCV 2025 发表首个面向自动驾驶语义占用栅格构造或预测任务的统一基准框架 UniOcc。 UniOcc 融合真实世界(nuScenes、Waymo)与仿真环境(CARLA、OpenCOOD)的多源数据,统一体素(voxel)格式与语义(semantic)标签,首次引入体素级前后向运动流标注,并支持多车协同占位预测与推理。 为摆脱伪标签(pseudo-label)评估限制,UniOcc 设计了多项免真值(ground-truth-free)指标,用于衡量物体形状合理性与时序一致性。
7/9/2025 3:36:00 PM
机器之心
AI 技术获全球顶级学术会议认可,小米 2 篇论文入选 ICCV 2025
AI在线 7 月 8 日消息,据小米技术消息,计算机视觉国际大会 ICCV 2025 论文录用结果公布,小米两篇论文凭借创新性研究成果成功入选:视频理解大模型核心技术 Q-Frame,推出行业首个动态帧选择与分辨率自适应框架,实现即插即用;持续学习框架 Analytic Subspace Routing (Any-SSR),成功解决大语言模型在持续学习领域的核心难题「灾难性遗忘」问题。 据介绍,计算机视觉国际大会 ICCV 与国际计算机视觉与模式识别会议 CVPR、欧洲计算机视觉国际会议 ECCV 并称为计算机领域世界三大顶级学术会议,每两年举办一次。 其中,ICCV 2025 年投稿量达 11239 篇,录用率为 24%。
7/8/2025 6:55:32 PM
归泷
ICCV 2025|降低扩散模型中的时空冗余,上交大EEdit实现免训练图像编辑加速
本论文共同第一作者闫泽轩和马跃分别是上海交通大学人工智能学院2025级研究生,以及香港科技大学2024级博士生。 目前在上海交通大学EPIC Lab进行科研实习,接受张林峰助理教授指导,研究方向是高效模型和AIGC。 本文主要介绍张林峰教授的团队的最新论文:EEdit⚡: Rethinking the Spatial and Temporal Redundancy for Efficient Image Editing。
7/5/2025 6:34:00 PM
机器之心
- 1
资讯热榜
标签云
人工智能
AI
OpenAI
AIGC
模型
ChatGPT
DeepSeek
AI绘画
谷歌
数据
机器人
大模型
Midjourney
用户
智能
开源
微软
Meta
GPT
学习
图像
技术
Gemini
AI创作
马斯克
论文
Anthropic
代码
英伟达
算法
Stable Diffusion
智能体
训练
芯片
开发者
蛋白质
生成式
腾讯
苹果
AI新词
神经网络
3D
Claude
研究
LLM
生成
机器学习
计算
Sora
AI for Science
人形机器人
AI视频
AI设计
GPU
xAI
华为
百度
搜索
大语言模型
Agent
场景
字节跳动
预测
深度学习
伟达
大型语言模型
工具
Transformer
视觉
RAG
神器推荐
具身智能
亚马逊
Copilot
模态
AGI
LLaMA
文本
算力
驾驶