AI在线 AI在线

3D视觉被过度设计?字节Depth Anything 3来了,谢赛宁点赞

现在,只需要一个简单的、用深度光线表示训练的 Transformer 就行了。 这项研究证明了,如今大多数 3D 视觉研究都存在过度设计的问题。 本周五,AI 社区最热门的话题是一篇新论文,有关 3D 建模的。

现在,只需要一个简单的、用深度光线表示训练的 Transformer 就行了。

这项研究证明了,如今大多数 3D 视觉研究都存在过度设计的问题。

本周五,AI 社区最热门的话题是一篇新论文,有关 3D 建模的。

图片

经过一年多的探索,来自字节跳动的团队推出了 Depth Anything 3(DA3),将单目深度估计扩展到了任何视角场景,让计算机实现了媲美人类的空间感知。

图片
  • 论文:https://arxiv.org/abs/2511.10647

  • 项目页面:https://depth-anything-3.github.io

  • 代码:https://github.com/ByteDance-Seed/Depth-Anything-3

  • Hugging face Demo: https://huggingface.co/spaces/depth-anything/depth-anything-3

为了追求最小建模,DA3 的工作获得了两个关键见解

  • 搞 3D 视觉,一个普通的 Transformer(如标准的 DINO)就够了,不需要专门的架构。

  • 只需单一深度射线表示即可,无需复杂的 3D 任务。

就是这样的方法,在姿态估计方面比当前业界最先进的方法 (SOTA) 提升了 44%,在几何估计方面提升了 25%。

原来 3D 视觉竟然这么简单?

纽约大学计算机科学助理教授、知名 AI 学者谢赛宁表示,论文有点像电影:第一部通常是最好的,续集往往更复杂却并不更精彩。但这完全不适用于 DepthAnything 系列。 Bingyikang 的团队每次都能让事情变得更简单、更易于扩展。

图片

谢赛宁感叹道,「在 Depth Anything 3 上,作者基本上表明,一个强大的表示编码器加上一个深度光线预测目标就足以在很多任务中获得可靠的、通用的空间感知(可以看到 RAE 的影子)。」

「人们常说他们讨厌计算机视觉,因为它太复杂 —— 任务太多、数据类型太多、涉及的环节太多。但这恰恰是我喜欢它的原因。我认为人工智能最大的突破将悄然来自视觉领域,然后突然间超越其他所有领域,彻底改变 AI 与现实世界,以及我们人类的互动方式。」

「我们很快就会意识到,视觉并非一系列任务的罗列 —— 它是一种视角。这种视角关乎对连续感官数据进行建模,构建世界的分层表征,并逐步迈向类人智能。说实话,在所有炒作的背后,我们每天都在见证着这一切的发生,所有这些不同的『任务』正慢慢地开始融合。」

概述

Depth Anything 3 (DA3) 是一种能够根据任意数量的视觉输入预测空间一致几何形状的模型,无论是否已知相机位姿。为了实现最小化建模,DA3 带来了两个关键发现:仅需一个简单的 Transformer 架构(例如,原始的 DINOv2 编码器)即可作为骨干网络,无需进行架构上的特殊设计;单一的深度光线预测目标也能避免复杂的多任务学习。

Depth Anything 3 目前已发布三个系列:主 DA3 系列、单目测量估计系列和单目深度估计系列。

在方法上,Depth Anything 3 将几何重建目标建模为一个密集预测任务。对于给定的 N 张输入图像,该模型经过训练,可以输出 N 个对应的深度图和光线图,每个深度图和光线图都与其对应的输入图像像素对齐。实现这一目标的架构以标准的预训练视觉 Transformer 作为骨干网络,充分利用其特征提取能力。

为了处理任意数量的视图,作者引入了一个关键的改进:输入自适应的跨视图自注意力机制。该模块在前向传播过程中,会在选定的层中动态地重新排列 token,从而实现跨视图的高效信息交换。对于最终的预测,作者提出了一种新的双 DPT 头,它通过处理同一组具有不同融合参数的特征,联合输出深度值和光线值。为了增强灵活性,该模型可以通过一个简单的相机编码器选择性地整合已知的相机姿态,使其能够适应各种实际场景。这种整体设计形成了一个简洁且可扩展的架构,并直接继承了其预训练骨干网络的扩展特性。

在训练上,Depth Anything 3 模型采用了师生范式,以统一各种不同的训练数据。数据源包括多种格式,例如真实世界的深度相机捕获数据、3D 重建数据以及合成数据。

其中真实世界的深度数据质量可能较差。为了解决这个问题,作者采用了一种受先前工作启发的伪标注策略,使用合成数据训练一个强大的单目深度模型,从而为所有真实世界数据生成密集、高质量的伪深度图。事实证明,这种方法非常有效,在不牺牲几何精度的前提下,显著提高了标签的细节和完整性。

为了更好地评估模型并跟踪该领域的进展,作者还建立了一个新的视觉几何基准,涵盖相机姿态估计、任意视图几何(TSDF 重建)和视觉渲染。

DA3 在所有 10 项任务中都取得了新的 SOTA 成绩,在相机姿态精度方面比之前的 SOTA VGGT 平均提高了 35.7%,在几何精度方面提高了 23.6%。它在单目深度估计方面优于 Deepth Anything V2,同时在细节和鲁棒性方面与之相当。

所有模型均完全基于公开的学术数据集进行训练。

图片

此外,Depth Anything 3 具备多种强大功能,进一步展示了其广泛的应用潜力:

  • 视频重建:DA3 能够从任意数量的视图中恢复视觉空间,涵盖从单视图到多视图的范围。这个演示展示了 DA3 从一段复杂视频中恢复视觉空间的能力。

图片
  • 大规模场景的 SLAM:精确的视觉几何估计能够提升 SLAM 的性能。定量结果表明,在大规模环境下,仅用 DA3 替换 VGGT-Long 中的 VGGT(DA3-Long)就能显著降低漂移,其效果甚至优于需要 48 小时以上才能完成的 COLMAP。3D视觉被过度设计?字节Depth Anything 3来了,谢赛宁点赞

  • 前馈 3D 高斯估计:通过冻结整个主干网络,并在多个数据集上训练 DPT 头部来预测 3DGS 参数,该模型实现了非常强大且具有很强泛化能力的新颖视图合成能力。3D视觉被过度设计?字节Depth Anything 3来了,谢赛宁点赞

  • 基于多摄像头的空间感知:DA3 能够从车辆的不同视角获取多张图像,并估计出稳定且可融合的深度图,从而增强自动驾驶车辆对环境的理解,研究团队认为这在机器人领域也是可以实现的。

3D视觉被过度设计?字节Depth Anything 3来了,谢赛宁点赞Depth Anything 3 发布后,已有不少开发者表示要把这个新方法引入自己的项目中,可见这种简单高效的设计,是人们所需要的落地方向。

更多内容,可参考原技术报告。

参考链接:

https://x.com/bingyikang/status/1989358278346977486

https://x.com/sainingxie/status/1989423686882136498?s=20

相关资讯

GitHub 8k Star,一作实习生,字节这个大模型成果被苹果选中了

字节跳动大模型团队成果 Depth Anything V2 现已被苹果官方收入 Core ML 模型库。本文介绍了 Depth Anything 系列成果的研发历程、技术挑战与解决方法,分享了团队对于 Scaling Laws 在单一视觉任务方面的思考。值得一提的是,Depth Anything V1 与 V2 两个版本论文一作是团队实习生。近日,字节跳动大模型团队开发的成果 Depth Anything V2 ,入选苹果公司 Core ML 模型库,目前已呈现在开发者相关页面中。Depth Anything 是一
7/11/2024 4:49:00 PM
机器之心

纪念碑谷式错觉图像都被「看穿」,港大、TikTok的Depth Anything火了

人类有两只眼睛来估计视觉环境的深度信息,但机器人和 VR 头社等设备却往往没有这样的「配置」,往往只能靠单个摄像头或单张图像来估计深度。这个任务也被称为单目深度估计(MDE)。近日,一种可有效利用大规模无标注图像的新 MDE 模型  Depth Anything 凭借强大的性能在社交网络上引起了广泛讨论,试用者无不称奇。甚至有试用者发现它还能正确处理埃舍尔(M.C.Escher)那充满错觉的绘画艺术(启发了《纪念碑谷》等游戏和艺术):从水上到水下,丝滑切换:更好的深度模型也得到了效果更好的以深度为条件的 Contr
1/24/2024 11:07:00 AM
机器之心

Video Depth Anything来了!字节开源首款10分钟级长视频深度估计模型,性能SOTA

AIxiv专栏是AI在线发布学术、技术内容的栏目。 过去数年,AI在线AIxiv专栏接收报道了2000多篇内容,覆盖全球各大高校与企业的顶级实验室,有效促进了学术交流与传播。 如果您有优秀的工作想要分享,欢迎投稿或者联系报道。
1/27/2025 8:33:00 PM
机器之心