AI在线 AI在线

一图生万物?AI“神笔马良”3DTown,单张照片变3D城市,这波操作太秀了!

最近,一项黑科技直接颠覆了我们对3D 世界构建的认知!普林斯顿大学、哥伦比亚大学和一家叫 Cyberever AI 的公司,联手推出了一套名叫3DTown 的框架。 听名字就知道,它就是来帮你搞3D 城镇的!最骚的是什么?它能仅仅凭借一张俯视图,就能帮你生成一个逼真、连贯的3D 城镇场景!  而且,它还是个免训练(training-free)的框架,这意味着你不用费劲巴拉地去收集海量3D 数据来训练它,直接就能用!

最近,一项黑科技直接颠覆了我们对3D 世界构建的认知!普林斯顿大学、哥伦比亚大学和一家叫 Cyberever AI 的公司,联手推出了一套名叫3DTown 的框架。听名字就知道,它就是来帮你搞3D 城镇的!最骚的是什么?它能仅仅凭借一张俯视图,就能帮你生成一个逼真、连贯的3D 城镇场景!  而且,它还是个免训练(training-free)的框架,这意味着你不用费劲巴拉地去收集海量3D 数据来训练它,直接就能用! 

image.png

论文地址:https://arxiv.org/pdf/2505.15765

项目地址:https://eric-ai-lab.github.io/3dtown.github.io/

传统3D 建模?那是上个时代的“体力活儿”!

你是不是觉得,搞一个高质量的3D 场景,那是大公司、大团队才能玩得起的“烧钱游戏”?确实是这样:

设备贵到哭:动辄几十万、上百万的3D 扫描设备,不是一般人能碰的。 

数据多到爆炸:需要多视角、多角度的数据采集,不然模型会有很多“盲区”。 

人工建模累成狗:耗时耗力,一个细节点能让建模师抠到头秃。 

所以,大部分人只能望3D 而兴叹。虽然最近几年 AI 在3D 对象生成上取得了很大进展,但要延伸到整个复杂场景的生成,那简直是“步履维艰”,经常出现各种“翻车”现场:

几何结构不一致:生成出来的建筑歪七扭八,不像个整体。 

布局凭空捏造:跟输入的图片完全对不上,想象力过于丰富。 

网格质量差:模型细节粗糙,材质贴图也一言难尽。 

image.png

3DTown:“一张图,造座城”的魔法师!

现在,3DTown 就是来解决这些痛点的!它的核心理念,就是让你用最少的输入(一张俯视图),生成最棒的3D 场景。  想象一下,你随便在网上找一张雪镇的俯视图,或者自己随手画一个荷兰风格小镇的草图,扔给3DTown,它就能给你变出一个个逼真的3D 模型! 

那它是怎么做到这种“魔法”的呢?答案藏在它的两大“黑科技”里:

区域生成:化整为零,逐个击破!

你有没有想过,一个复杂的3D 场景,如果直接让 AI 一口气生成,那难度可想而知。3DTown 很聪明,它采用了**“化整为零”的策略**。  它会把输入的俯视图分解成 overlapping(重叠)的区域,然后对每个区域进行单独的3D 生成。  这就像把一张巨大的拼图,先拆分成一个个小拼图,然后让 AI 集中精力去拼好每一小块。这样做的好处是显而易见的:

提升分辨率和细节:每个区域都是独立的,AI 可以集中火力生成高分辨率的几何结构和纹理,细节更丰富。 

改善图像到3D 的对齐:因为是针对局部区域生成,AI 对图像细节的理解更精确,生成出的3D 模型也更符合图片中的样子。 

空间感知3D 修复:让“碎片”完美拼接!

“化整为零”虽然好,但又带来了新问题:这些独立生成的区域,怎么才能完美地拼接成一个连贯、没有缝隙的整体呢?  这就是3DTown 的第二个“黑科技”——空间感知3D 修复(spatial-aware3D inpainting)! 

它首先会根据输入的图片,估算出粗略的3D 结构,这就像给 AI 画了个“草稿图”,告诉它哪里是建筑、哪里是道路。 

然后,它会利用蒙版矫正流(masked rectified flow)修复过程,去填充那些缺失的几何结构,同时保持整体结构的连续性。  想象一下,这就像一个专业的“3D 瓦工”,在 AI 拼好每块“积木”后,它能自动帮你把积木之间的缝隙填补得天衣无缝,而且还保持整体结构不走样! 

无需训练,效果“打脸”同行!

最让人拍案叫绝的是,3DTown 是一个**“免训练”的框架**!  它直接利用了预训练好的3D 对象生成器(比如 Trellis),然后通过它独特的区域生成和空间修复策略,来合成复杂的3D 场景。  这就好比一个顶级厨师,他不需要自己种菜养猪,而是直接从市场上买来上好的食材,然后用他精湛的厨艺,做出米其林星级的菜肴!

实验结果也证明了3DTown 的强大实力,它在多项指标上全面碾压了目前最先进的 Image-to-3D 生成模型:

几何质量:人类评分和 GPT-4o 评分都显示,3DTown 生成的3D 模型几何结构更精细、更接近真实!  它的几何质量得分比 Trellis 高出37个百分点,比 TripoSG 高出55个百分点! 

布局连贯性:生成出来的场景布局跟输入的图片完美对齐,没有“跑偏”的现象。  在布局连贯性上,3DTown 的人类偏好得分比 Trellis 高出40个百分点,在 GPT-4o 评估中更是达到87.9%,而 Hunyuan3D-2只有12.1%! 

纹理保真度:模型表面的纹理逼真、一致,就像真实世界一样。 

你看,无论是雪镇、沙漠小镇,还是荷兰风格小镇,3DTown 都能完美驾驭,生成出高度连贯且逼真的3D 场景!  其他模型则经常出现结构过于简化、布局扭曲、或者物体重复的毛病。 

3DTown 的“成功秘诀”:拆解与缝合的艺术!

这项技术的成功,再次证明了**“空间分解”和“先验引导修复”**这两种策略在将2D 图像提升为高质量3D 场景中的重要性。 

区域分解让 AI 可以在每个局部区域发挥其预训练的优势,避免了处理整个复杂场景时的“力不从心”。 

地标引导则像给 AI 提供了“定海神针”,确保了场景的整体结构和关键物体的连续性,防止“跑偏”。 

这项技术对游戏开发、电影制作、元宇宙构建、甚至是机器人仿真训练等领域都有着巨大的潜力。想象一下,未来我们只需要一张草图,就能快速生成一个可以探索的3D 世界,那效率得提升多少倍啊!

最后,小小的“碎碎念”和未来的展望

当然,任何新技术都不是完美的。3DTown 目前也有一些小限制,比如:

它所依赖的预训练3D 生成器是基于单个物体训练的,所以在某些区域生成时,可能会出现一些“幻觉”,比如重复的立面或不真实的屋顶形状。 

它对初始粗略3D 结构的估计,有时候会有“漏洞”,导致生成出的表面空洞或过于平滑。 

但这些都是未来可以优化的方向,比如结合多视角数据、引入语义先验、或者进行场景级别的微调等。 

3DTown 的出现,无疑是3D 内容生成领域的一个里程碑!它以一种巧妙、高效且无需训练的方式,为我们打开了从2D 到3D 快速构建复杂场景的大门。未来,或许我们每个人都能成为3D 世界的“创世神”,只需一张图,就能打造出自己心中的“理想之城”!

相关资讯

不到60秒就能生成3D「手办」,Meta发力3D生成,ChatGPT时刻要来了吗?

3D 生成,一直在等待它的「ChatGPT时刻」。一直以来,创作 3D 内容是设计和开发视频游戏、增强现实、虚拟现实以及影视特效中最重要的部分。然而,3D 生成具有独特而艰巨的挑战,这是图像和视频等其他生成内容所不具备的。首先,3D 内容在艺术质量、生成速度、3D 网格结构和拓扑质量、UV 贴图结构以及纹理清晰度和分辨率方面具有严格的标准;其次,与其他研究相比,可用的数据量少。虽然该领域有数十亿张图像和视频可供学习,但可用于训练的 3D 内容数量要少三到四个数量级。因此,现阶段的3D 生成还必须从非 3D 的图像和
7/4/2024 5:55:00 PM
机器之心

Babylon.js:如何与3D场景中的物体交互?

图片开发棋类游戏,需要实现鼠标控制棋子的功能,使得游戏能够将鼠标在屏幕上的位置准确地映射到棋盘上的对应落子点。 如果开发的是2D游戏的话,实现就比较简单,鼠标屏幕坐标和棋盘都是二维平面。 就像下图围棋所示,可以根据xy坐标表示鼠标的位置,同时围棋落子点的坐标也可以计算得出xy坐标,这样很轻松地就能实现鼠标位置和围棋落子点坐标的映射和距离比较。
11/26/2024 7:40:44 AM
一点鑫得

大规模3D场景2分钟生成,效率提升30倍!中科院发布空间智能新框架

「空间智能」和「世界模型」是最近学术界和产业界非常火热的研究方向,走向虚实结合、模拟世界机理的关键一步,就是创造出一个生动的虚拟世界。 然而,想要打造丰富多样、充满细节,同时具备高度可编辑性和物理真实性的3D虚拟世界,仍然困难重重。 为了解决这些难题,来自中国科学院自动化研究所和北京科技大学的联合团队,首次提出了一种全新的3D场景生成框架SceneX,只需简单的文字描述,就能快速生成高质量的3D虚拟场景。
1/2/2025 12:22:09 PM
新智元
  • 1