SIGGRAPH Asia 2025 | 让3D场景生成像「写代码」一样灵活可控

随着生成式 AI 的快速发展，从文本生成图像、视频，到构建完整的三维世界，AI “创造空间” 的能力正以前所未有的速度突破边界。然而，现有 3D 场景生成方法仍存在明显局限：模型往往直接输出每个物体的几何参数（位置、大小、方向等），结果容易出现漂浮、重叠、穿模等问题；场景结构缺乏逻辑一致性，难以编辑或复用，更无法像程序那样精确控制空间关系与生成逻辑。想象这样一个画面：你输入一句话 ——“在黄昏的码头上，一位渔夫坐在木椅上，旁边是一盏摇曳的灯。

想象这样一个画面：你输入一句话 ——

“在黄昏的码头上，一位渔夫坐在木椅上，旁边是一盏摇曳的灯。”

AI 不再只是 “摆放” 这些元素，而是生成一段可执行的三维构建脚本：从灯光的照射角度到渔夫与木椅的相对位置，都由程序逻辑自动推导与控制。

这种 “从语言到程序再到场景” 的新范式，正是由布朗大学（Brown University）与加州大学圣地亚哥分校（UC San Diego）的研究团队提出的 Procedural Scene Programs（PSP）框架。

与传统的几何直接生成方法不同，PSP 让 AI 不再是 “画” 出一个世界，而是像程序员一样 “写” 出世界的生成逻辑。模型输出的不是静态的三维网格，而是一段可运行的场景脚本，具备高度的可编辑性、可复用性与结构可控性 —— 为 AI 世界构建带来了新的语言与思维方式。

该研究已被计算机图形学顶会 SIGGRAPH Asia 2025 接收。

论文题目：Procedural Scene Programs for Open-Universe Scene Generation: LLM-Free Error Correction via Program Search
作者：Maxim Gumin, Do Heon Han, Seung Jean Yoo, Aditya Ganeshan, R. Kenny Jones, Kailiang Fu（傅楷量）, Rio Aguina-Kang, Stewart Morris, Daniel Ritchie
论文链接：https://arxiv.org/abs/2510.16147

方法

研究团队提出的 Procedural Scene Programs（PSP）是一个两阶段的程序化场景生成系统。它的核心思想是：让 AI 不再直接输出三维几何，而是先生成可执行的构建脚本，再通过程序执行构建出完整场景。

整个系统由两大关键组件组成：

1. Procedural Scene Description Language（PSDL） —— 用来 “写” 出生成世界的程序语言；

2. Program Search 纠错模块 —— 在程序执行后自动检测并修复几何错误。

PSDL 负责 “生成逻辑”，Program Search 负责 “结果修正”。这种 “先生成、再调试” 的机制，使得 AI 不仅能自动搭建三维场景，还能在程序层面自我修复错误，从而生成结构合理、物理一致的世界。

1. 程序化生成语言 PSDL：让 AI 写出世界的规则

传统的三维场景生成模型通常直接预测每个物体的位置、大小和方向。然而，由于 AI 并不具备完善的空间想象与物理推理能力，这种方法往往会导致物体漂浮、重叠等问题。为此，PSP 引入了 Procedural Scene Description Language（PSDL），让模型不再 “直接想象空间”，而是以程序逻辑来表达空间关系。PSDL 嵌入在 Python 中，支持函数、循环、条件与变量绑定，使模型能够通过编写规则的方式来定义场景的结构与布局。

例如：

这样的语句不仅表达了 “放三把椅子” 的结果，也清晰地定义了 “围绕桌子等角放置” 的空间关系。这种形式让生成过程具备了可编辑、可扩展、可复用的特性，使模型真正具备了 “程序化建模” 的能力。

2. 纠错模块 Program Search：自动修复几何错误

在生成完成后，PSP 会通过 Program Search 模块对场景进行结构与几何一致性检测。与传统需要反复调用大模型修正错误的方式不同，PSP 直接在程序空间中搜索修复方案，无需再次推理。

研究团队定义了多种几何一致性指标，如物体重叠率、支撑关系和遮挡情况。当检测到异常时，系统会自动替换变量或微调表达式，从程序层修复问题。

实验结果显示，PSP 平均只需约 7 次程序修改即可修复大多数错误，且完全无需重新调用 LLM。这种符号级修正机制让生成过程更稳定、更具可解释性，并显著提升了三维场景的物理合理性。

效果与对比

在 70 个开放世界场景提示（涵盖自然、建筑、幻想等多样主题）上，研究团队对比了三种代表性方法：声明式布局系统 DeclBase、约束驱动的 Holodeck，以及本文提出的 Procedural Scene Programs（PSP）。

结果显示，PSP 在人类主观评测中显著领先 —— 在与 DeclBase 的对比中获得 82.9% 的偏好率，与 Holodeck 的对比中则达到 94.3%。同时，PSP 的生成速度也更快：从文本到完整场景平均仅需约 38 秒，而 DeclBase 与 Holodeck 分别需要 40.8 秒与约 42 秒。

除了人类主观评测外，研究团队还提出了一种基于多模态 LLM 的自动化评估方法，用于衡量生成场景在语义一致性与视觉合理性上的表现。在 PSP 与 DeclBase、Holodeck 的对比中，该自动评测方法分别给出 77.1% 与 90.0% 的 PSP 偏好选择率，与人类主观偏好（82.9% 与 94.3%）趋势一致，证明了其在未来三维场景生成质量评测中的可靠性与参考价值。

意义与展望

这项研究揭示了一个重要趋势：未来的 3D 场景生成，可以不再只是从文本到几何的单向映射，而是一个 “程序写世界（Program the World）” 的过程。

通过 Procedural Scene Programs（PSP），AI 的 “想象力” 可以与 “编程逻辑” 深度融合：它既继承了命令式生成的灵活性与层次表达能力，又以符号化修正机制弥补了大模型在空间推理与逻辑一致性上的脆弱。这一范式转变，让模型不只是理解世界的观察者，而成为主动构建世界的开发者。

正如论文作者所言：

“Our approach re-establishes the strengths of imperative scene layout programs while overcoming their fragility to LLM errors.”

PSP 通过程序语言与自动纠错机制的结合，为 3D 内容生成带来了前所未有的可控性与自解释性。无论是虚拟城市、游戏关卡，还是具身智能的视觉环境，这一框架都为 AI 世界的构建提供了新的逻辑与基础。

SIGGRAPH Asia 2025 | 让3D场景生成像「写代码」一样灵活可控

相关资讯

SIGGRAPH Asia 2025 | OmniPart框架，让3D内容创作像拼搭积木一样简单

SIGGRAPH Asia 2025｜30FPS普通相机恢复200FPS细节，4D重建方案来了

SIGGRAPH Asia 2025 | 只用一部手机创建和渲染高质量3D数字人