3D人脸黑科技！Pixel3DMM：单张RGB图像秒变3D人脸，姿势表情精准还原，几何精度碾压竞品15%！

作者： 2025-05-14 09:23

慕尼黑工业大学和伦敦大学学院提出了一款经过微调的 DINO ViT模型 Pixel3DMM，用于逐像素表面法线和 UV 坐标预测。从上到下，下图展示了 FFHQ 输入图像、估计的表面法线、根据预测的 UV 坐标估计的二维顶点，以及针对上述两个线索的 FLAME 拟合结果。使用Pixel3DMM 进行野外追踪。

慕尼黑工业大学和伦敦大学学院提出了一款经过微调的 DINO ViT模型 Pixel3DMM，用于逐像素表面法线和 UV 坐标预测。从上到下，下图展示了 FFHQ 输入图像、估计的表面法线、根据预测的 UV 坐标估计的二维顶点，以及针对上述两个线索的 FLAME 拟合结果。

使用Pixel3DMM 进行野外追踪。

从左到右：输入、预测法线、预测二维顶点、跟踪覆盖、FLAME 跟踪。

单幅图像重建

给定一个输入图像（右上），下图展示了 DECA、FlowFace 和 Ours 相对于地面真实 COLMAP 点云的几何重建。

给定一个输入图像（右上），我们展示了 DECA、FlowFace 和 Ours 相对于地面真实 COLMAP 点云的中性几何重建。

论文介绍

我们致力于从单张 RGB 图像进行人脸的 3D 重建。为此，我们提出了 Pixel3DMM，这是一组高度泛化的视觉变换器，能够预测每个像素的几何线索，从而限制 3D 可变形人脸模型 (3DMM) 的优化。我们利用 DINO 基础模型的潜在特征，并引入了定制的表面法线和 uv 坐标预测头。我们通过将三个高质量的 3D 人脸数据集与 FLAME 网格拓扑进行配准来训练我们的模型，最终共计生成超过 1,000 个身份和 976,000 张图像。对于 3D 人脸重建，我们提出了一种 FLAME 拟合优化方法，该方法可以根据 uv 坐标和法线估计值求解 3DMM 参数。为了评估我们的方法，我们引入了一个用于单图像人脸重建的新基准，该基准具有高度多样化的面部表情、视角和种族特征。至关重要的是，我们的基准是第一个同时评估姿势面部和中性面部几何形状的基准。最终，我们的方法在姿势面部表情的几何精度方面比最具竞争力的基线高出 15％以上。

方法概述

左图：我们的网络由 DINO 主干网络和轻量级预测头组成。我们在 NPHM、FaceScape 和 Ava256 数据集上训练模型，并使用 FLAME 和非刚性配准将这些数据集转换为统一的格式。
右图：在推理阶段，我们使用法线和 UV 坐标预测作为 FLAME 拟合过程中的优化目标。虽然法线约束很简单，但我们首先使用最近邻查找法预测二维顶点位置，从而将 UV 坐标预测纳入其中。

实验结果

表面法线估计

给定一个输入图像（左），下图展示了几个表面法线估计器（右上）和误差图（右下）的预测

不到60秒就能生成3D「手办」，Meta发力3D生成，ChatGPT时刻要来了吗？

3D 生成，一直在等待它的「ChatGPT时刻」。一直以来，创作 3D 内容是设计和开发视频游戏、增强现实、虚拟现实以及影视特效中最重要的部分。然而，3D 生成具有独特而艰巨的挑战，这是图像和视频等其他生成内容所不具备的。首先，3D 内容在艺术质量、生成速度、3D 网格结构和拓扑质量、UV 贴图结构以及纹理清晰度和分辨率方面具有严格的标准；其次，与其他研究相比，可用的数据量少。虽然该领域有数十亿张图像和视频可供学习，但可用于训练的 3D 内容数量要少三到四个数量级。因此，现阶段的3D 生成还必须从非 3D 的图像和

7/4/2024 5:55:00 PM 机器之心

PartCrafter：首个结构化3D多部件生成模型

本篇文章是北京大学、字节跳动和卡耐基梅隆大学的联合工作。我们提出了 PartCrafter，一种新颖的结构化 3D 生成模型，为 3D 对象创建引入了一种变革性的方法。 PartCrafter 不仅能生成可分解的 3D 网格，还支持灵活的部件编辑，为创作者提供了更高的自由度。

8/14/2025 1:37:36 PM 潘攀望

腾讯混元3D-Omni：3D版ControlNet突破多模态控制，实现高精度3D资产生成

近年来，3D 原生生成模型在游戏、影视和设计领域的资产创建中展现出强大潜力。然而，大多数现有方法仍主要依赖图像作为条件输入，缺乏细粒度、多模态的控制能力，限制了其在实际生产流程中的应用。为解决这一瓶颈，腾讯混元团队推出了混元 3D-Omni，一个基于 Hunyuan3D 2.1 构建的统一多模态可控 3D 生成框架。

9/29/2025 3:05:00 PM 机器之心