AI在线 AI在线

Feed-Forward 3D综述:三维视觉如何「一步到位」

在 3D 视觉领域,如何从二维图像快速、精准地恢复三维世界,一直是计算机视觉与计算机图形学最核心的问题之一。 从早期的 Structure-from-Motion (SfM) 到 Neural Radiance Fields (NeRF),再到 3D Gaussian Splatting (3DGS),技术的演进让我们离实时、通用的 3D 理解越来越近。 然而,以往的方法往往依赖于每个场景的反复优化(per-scene optimization),既慢又缺乏泛化能力。
图片

在 3D 视觉领域,如何从二维图像快速、精准地恢复三维世界,一直是计算机视觉与计算机图形学最核心的问题之一。从早期的 Structure-from-Motion (SfM) 到 Neural Radiance Fields (NeRF),再到 3D Gaussian Splatting (3DGS),技术的演进让我们离实时、通用的 3D 理解越来越近。

然而,以往的方法往往依赖于每个场景的反复优化(per-scene optimization),既慢又缺乏泛化能力。在 AI 驱动的新时代,一个全新的范式正在崛起 —— Feed-Forward 3D

这篇由 NTU、Caltech、Westlake、UCSD、Oxford、Harvard、MIT 等 12 所机构联合撰写的综述论文,主要总结了过去五年(2021–2025)间涌现的数百项创新工作,首次建立了完整的 Feed-Forward 3D 方法谱系与时间线

图片
  • 论文标题:Advances in Feed-Forward 3D Reconstruction and View Synthesis: A Survey

  • 论文地址:https://arxiv.org/abs/2507.14501

  • 论文主页:https://fnzhan.com/projects/Feed-Forward-3D/

图片图片

五大代表性技术分支

综述将所有 Feed-Forward 3D 方法划分为五类主流架构,每一类都推动了该领域的关键进展:

NeRF-based Models

Neural Radiance Fields (NeRF) 提出了体积渲染的可微分框架,但其「每个场景都要优化」的缺点导致效率低下。自 PixelNeRF [CVPR ’21] 起,研究者们开始探索「条件式 NeRF」,让网络直接预测辐射场。这一方向发展出多个分支:

  • 1D 特征方法(如 CodeNeRF、ShaRF)

  • 2D 特征方法(如 GRF、IBRNet、GNT、MatchNeRF)

  • 3D 特征方法(如 MVSNeRF、GeoNeRF、NeuRay)

图片

PointMap Models

这一分支由 DUSt3R (CVPR ’24) 引领,直接在 Transformer 中预测像素对齐的 3D 点云(pointmap),无需相机姿态输入。后续工作 MASt3R、Fast3R、CUT3R、SLAM3R、VGGT 等相继提出更高效的多视整合、长序列记忆机制,以及大场景处理能力等。

图片

3D Gaussian Splatting (3DGS)

3DGS 是近年来最具突破性的表示之一,将三维场景表示为高斯点云,兼顾了体积渲染的质量与光栅化的速度。然而原始 3DGS 仍需优化。Feed-Forward 研究者通过引入神经预测器,实现了「直接输出高斯参数」的能力,主要方法包括:

  • Image-based Gaussian Map:如 PixelSplat、GS-LRM、LGM、FreeSplatter,实现从单张图像到高斯场的预测;

  • Volume-based Gaussian Representation:如 LaRa、GaussianCube、QuickSplat、SCube,将场景嵌入可学习体素或三平面结构中。

图片

Mesh / Occupancy / SDF Models

这一类方法延续了传统几何建模思路,并与 Transformer 与 Diffusion 模型结合:

  • MeshFormer、InstantMesh、MeshGPT、MeshXL 引入可自回归或大模型结构;

  • SDF 方法(如 SparseNeuS、C2F2NeuS、UFORecon)结合体积感知与 Transformer 特征聚合,实现了高精度表面建模。

3D-Free Models

这类方法不再依赖显式三维表示,而是直接学习从多视图到新视角的映射。

  • Regression-based:如 SRT、OSRT、RePAST、LVSM,利用深度神经网络直接端到端拟合目标结果;

  • Generative Diffusion-based:以 Zero-1-to-3、SyncDreamer、MVDream、CAT3D、CAT4D 为代表,将图像或视频扩散模型迁移到三维生成领域。 这些模型让「一张图生成整个场景」成为可能。

图片图片

多样化任务与应用场景

论文系统总结了 Feed-Forward 模型在多个方向的应用:

  • Pose-Free Reconstruction & View Synthesis(PF3Plat、NoPoSplat)

  • Dynamic 4D Reconstruction & Video Diffusion(MonST3R、4D-LRM、Aether)

  • SLAM 与视觉定位(SLAM3R、VGGT-SLAM、Reloc3R)

  • 3D-Aware 图像与视频生成(DiffSplat、Bolt3D)

  • 数字人建模(Avat3R、GaussianHeads、GIGA)

  • 机器人操作与世界模型(ManiGaussian、ManiGaussian++)

Benchmark 与评测指标

论文收录了超过 30 个常用 3D 数据集(见第 13 页表 1),涵盖对象级、室内、室外、静态与动态场景,标注模态包括 RGB、深度、LiDAR、语义与光流等。 

同时总结了 PSNR / SSIM / LPIPS(图像质量),Chamfer Distance(几何精度),AUC / RTE / RRA(相机姿态)等标准指标体系,为未来的模型比较提供统一基线。

图片

评测结果:Feed-Forward 3D 的量化进展

根据 Table 2–5 的结果,本综述对多项任务进行了系统对比:

  • 相机姿态估计(Camera Pose Estimation)

图片
  • 点图重建(Point Map Estimation)

图片
  • 视频深度估计(Video Depth Estimation)

图片
  • 单图新视角合成(Single-Image NVS)

图片

未来挑战与趋势

论文在第 5 章提出四大开放问题:

  • 多模态数据不足:RGB-only 仍占主流,缺乏统一的深度/LiDAR/语义对齐数据;

  • 重建精度待提升:尚未全面超越 MVS 在细节层面的表现;

  • 自由视角渲染难度高:遮挡与光照建模仍受限;

  • 长上下文推理瓶颈:处理 100+ 帧序列需 40 GB 以上显存。

未来方向包括:Diffusion Transformers 与长程注意力结构;可扩展的 4D 记忆机制;多模态大规模数据集构建(RGB + Depth + LiDAR + 语义);同时具有生成和重建能力的 Feed-Forward 模型。

相关资讯

PartCrafter:首个结构化3D多部件生成模型

本篇文章是北京大学、字节跳动和卡耐基梅隆大学的联合工作。 我们提出了 PartCrafter,一种新颖的结构化 3D 生成模型,为 3D 对象创建引入了一种变革性的方法。 PartCrafter 不仅能生成可分解的 3D 网格,还支持灵活的部件编辑,为创作者提供了更高的自由度。
8/14/2025 1:37:36 PM
潘攀望

不到60秒就能生成3D「手办」,Meta发力3D生成,ChatGPT时刻要来了吗?

3D 生成,一直在等待它的「ChatGPT时刻」。一直以来,创作 3D 内容是设计和开发视频游戏、增强现实、虚拟现实以及影视特效中最重要的部分。然而,3D 生成具有独特而艰巨的挑战,这是图像和视频等其他生成内容所不具备的。首先,3D 内容在艺术质量、生成速度、3D 网格结构和拓扑质量、UV 贴图结构以及纹理清晰度和分辨率方面具有严格的标准;其次,与其他研究相比,可用的数据量少。虽然该领域有数十亿张图像和视频可供学习,但可用于训练的 3D 内容数量要少三到四个数量级。因此,现阶段的3D 生成还必须从非 3D 的图像和
7/4/2024 5:55:00 PM
机器之心

腾讯混元3D-Omni:3D版ControlNet突破多模态控制,实现高精度3D资产生成

近年来,3D 原生生成模型在游戏、影视和设计领域的资产创建中展现出强大潜力。 然而,大多数现有方法仍主要依赖图像作为条件输入,缺乏细粒度、多模态的控制能力,限制了其在实际生产流程中的应用。 为解决这一瓶颈,腾讯混元团队推出了混元 3D-Omni,一个基于 Hunyuan3D 2.1 构建的统一多模态可控 3D 生成框架。
9/29/2025 3:05:00 PM
机器之心
  • 1