AI在线 AI在线

SIGGRAPH Asia 2025 | 让3D场景生成像「写代码」一样灵活可控

随着生成式 AI 的快速发展,从文本生成图像、视频,到构建完整的三维世界,AI “创造空间” 的能力正以前所未有的速度突破边界。 然而,现有 3D 场景生成方法仍存在明显局限:模型往往直接输出每个物体的几何参数(位置、大小、方向等),结果容易出现漂浮、重叠、穿模等问题;场景结构缺乏逻辑一致性,难以编辑或复用,更无法像程序那样精确控制空间关系与生成逻辑。 想象这样一个画面:你输入一句话 ——“在黄昏的码头上,一位渔夫坐在木椅上,旁边是一盏摇曳的灯。
图片

随着生成式 AI 的快速发展,从文本生成图像、视频,到构建完整的三维世界,AI “创造空间” 的能力正以前所未有的速度突破边界。然而,现有 3D 场景生成方法仍存在明显局限:模型往往直接输出每个物体的几何参数(位置、大小、方向等),结果容易出现漂浮、重叠、穿模等问题;场景结构缺乏逻辑一致性,难以编辑或复用,更无法像程序那样精确控制空间关系与生成逻辑。

想象这样一个画面:你输入一句话 ——

“在黄昏的码头上,一位渔夫坐在木椅上,旁边是一盏摇曳的灯。”

AI 不再只是 “摆放” 这些元素,而是生成一段可执行的三维构建脚本:从灯光的照射角度到渔夫与木椅的相对位置,都由程序逻辑自动推导与控制。

这种 “从语言到程序再到场景” 的新范式,正是由布朗大学(Brown University)与加州大学圣地亚哥分校(UC San Diego)的研究团队提出的 Procedural Scene Programs(PSP) 框架。

与传统的几何直接生成方法不同,PSP 让 AI 不再是 “画” 出一个世界,而是像程序员一样 “写” 出世界的生成逻辑。模型输出的不是静态的三维网格,而是一段可运行的场景脚本,具备高度的可编辑性、可复用性与结构可控性 —— 为 AI 世界构建带来了新的语言与思维方式。

该研究已被计算机图形学顶会 SIGGRAPH Asia 2025 接收。

图片图片
  • 论文题目:Procedural Scene Programs for Open-Universe Scene Generation: LLM-Free Error Correction via Program Search

  • 作者:Maxim Gumin, Do Heon Han, Seung Jean Yoo, Aditya Ganeshan, R. Kenny Jones, Kailiang Fu(傅楷量), Rio Aguina-Kang, Stewart Morris, Daniel Ritchie

  • 论文链接:https://arxiv.org/abs/2510.16147

方法

研究团队提出的 Procedural Scene Programs(PSP) 是一个两阶段的程序化场景生成系统。它的核心思想是:让 AI 不再直接输出三维几何,而是先生成可执行的构建脚本,再通过程序执行构建出完整场景。

整个系统由两大关键组件组成:

1. Procedural Scene Description Language(PSDL) —— 用来 “写” 出生成世界的程序语言;

2. Program Search 纠错模块 —— 在程序执行后自动检测并修复几何错误。

PSDL 负责 “生成逻辑”,Program Search 负责 “结果修正”。这种 “先生成、再调试” 的机制,使得 AI 不仅能自动搭建三维场景,还能在程序层面自我修复错误,从而生成结构合理、物理一致的世界。

1. 程序化生成语言 PSDL:让 AI 写出世界的规则

传统的三维场景生成模型通常直接预测每个物体的位置、大小和方向。然而,由于 AI 并不具备完善的空间想象与物理推理能力,这种方法往往会导致物体漂浮、重叠等问题。为此,PSP 引入了 Procedural Scene Description Language(PSDL),让模型不再 “直接想象空间”,而是以程序逻辑来表达空间关系。PSDL 嵌入在 Python 中,支持函数、循环、条件与变量绑定,使模型能够通过编写规则的方式来定义场景的结构与布局。

例如:

这样的语句不仅表达了 “放三把椅子” 的结果,也清晰地定义了 “围绕桌子等角放置” 的空间关系。这种形式让生成过程具备了可编辑、可扩展、可复用的特性,使模型真正具备了 “程序化建模” 的能力。

图片

2. 纠错模块 Program Search:自动修复几何错误

在生成完成后,PSP 会通过 Program Search 模块对场景进行结构与几何一致性检测。与传统需要反复调用大模型修正错误的方式不同,PSP 直接在程序空间中搜索修复方案,无需再次推理。

研究团队定义了多种几何一致性指标,如物体重叠率、支撑关系和遮挡情况。当检测到异常时,系统会自动替换变量或微调表达式,从程序层修复问题。

实验结果显示,PSP 平均只需 约 7 次程序修改 即可修复大多数错误,且完全无需重新调用 LLM。这种符号级修正机制让生成过程更稳定、更具可解释性,并显著提升了三维场景的物理合理性。

图片

效果与对比

在 70 个开放世界场景提示(涵盖自然、建筑、幻想等多样主题)上,研究团队对比了三种代表性方法:声明式布局系统 DeclBase、约束驱动的 Holodeck,以及本文提出的 Procedural Scene Programs(PSP)。

结果显示,PSP 在人类主观评测中显著领先 —— 在与 DeclBase 的对比中获得 82.9% 的偏好率,与 Holodeck 的对比中则达到 94.3%。同时,PSP 的生成速度也更快:从文本到完整场景平均仅需约 38 秒,而 DeclBase 与 Holodeck 分别需要 40.8 秒 与 约 42 秒。

图片

除了人类主观评测外,研究团队还提出了一种基于多模态 LLM 的自动化评估方法,用于衡量生成场景在语义一致性与视觉合理性上的表现。在 PSP 与 DeclBase、Holodeck 的对比中,该自动评测方法分别给出 77.1% 与 90.0% 的 PSP 偏好选择率,与人类主观偏好(82.9% 与 94.3%)趋势一致,证明了其在未来三维场景生成质量评测中的可靠性与参考价值。

图片

意义与展望

这项研究揭示了一个重要趋势:未来的 3D 场景生成,可以不再只是从文本到几何的单向映射,而是一个 “程序写世界(Program the World)” 的过程。

通过 Procedural Scene Programs(PSP),AI 的 “想象力” 可以与 “编程逻辑” 深度融合:它既继承了命令式生成的灵活性与层次表达能力,又以符号化修正机制弥补了大模型在空间推理与逻辑一致性上的脆弱。这一范式转变,让模型不只是理解世界的观察者,而成为主动构建世界的开发者。

正如论文作者所言:

“Our approach re-establishes the strengths of imperative scene layout programs while overcoming their fragility to LLM errors.”

PSP 通过程序语言与自动纠错机制的结合,为 3D 内容生成带来了前所未有的可控性与自解释性。无论是虚拟城市、游戏关卡,还是具身智能的视觉环境,这一框架都为 AI 世界的构建提供了新的逻辑与基础。

相关资讯

SIGGRAPH Asia 2025 | OmniPart框架,让3D内容创作像拼搭积木一样简单

SIGGRAPH Asia 2025 | OmniPart框架,让3D内容创作像拼搭积木一样简单

本文的主要作者来自香港大学、VAST、哈尔滨工业大学及浙江大学。 本文的第一作者为香港大学博士生杨运涵。 本文的通讯作者为香港大学刘希慧教授与VAST 公司首席科学家曹炎培博士。
10/20/2025 1:11:00 PM 机器之心
SIGGRAPH Asia 2025|30FPS普通相机恢复200FPS细节,4D重建方案来了

SIGGRAPH Asia 2025|30FPS普通相机恢复200FPS细节,4D重建方案来了

本文第一作者陈羽田,香港中文大学 MMLab 博士二年级在读,研究方向为三维重建与生成,导师为薛天帆教授。 个人主页: 0.01 秒的惊艳弧度,当 VR 玩家想伸手抓住对手 “空中定格” 的剑锋,当 TikTok 爆款视频里一滴牛奶皇冠般的溅落要被 360° 无死角重放 —— 如何用普通的摄像机,把瞬间即逝的高速世界 “冻结” 成可供反复拆解、传送与交互的数字化 4D 时空,成为 3D 视觉领域的一个难题。 然而,受限于硬件成本与数据传输带宽,目前绝大多数 4D 采集阵列的最高帧率仅约 30 FPS;相比之下,传统高速摄影通常需要 120 FPS 乃至更高。
12/14/2025 8:56:00 PM 机器之心
SIGGRAPH Asia 2025 | 只用一部手机创建和渲染高质量3D数字人

SIGGRAPH Asia 2025 | 只用一部手机创建和渲染高质量3D数字人

在计算机图形学、三维视觉、虚拟人、XR 领域,SIGGRAPH 是毫无争议的 “天花板级会议”。 SIGGRAPH Asia 作为 SIGGRAPH 系列两大主会之一,每年只接收全球最顶尖研究团队的成果稿件,代表着学术与工业界的最高研究水平与最前沿技术趋势。 我们是淘宝技术 - Meta 技术团队,在 3D、XR、3D 真人数字人和三维重建等方向拥有深厚的技术积累和业务沉淀,我们自研了专业的多视角拍摄影棚,在今年 CVPR 2025 会议上作为 Highlight Paper 发表了 TaoAvatar ,并在淘宝未来旗舰店中实现了业内首个 3D 真人导购体验,下面视频展示了杭州西溪园区 C 区淘宝未来旗舰店的精彩瞬间,欢迎大家到来访园区进行体验。
12/18/2025 6:33:00 PM 机器之心