多模态大语言模型空间智能新探索：仅需单张图片或一句话，就可以精准生成3D建模代码啦！

计算机辅助设计（CAD）已经成为许多行业设计、绘图和建模的标准方法。如今，几乎每一个制造出来的物体都是从参数化 CAD 建模开始的。CAD 构造序列是 CAD 模型表示的一种类型，不同于 Mesh 类型的三角网格、B-rep 格式的点、线、面表示，它被描述为一系列建模操作，包括确定草图 3D 起点和 3D 草图平面方向、绘制 2D 草图、将草图拉伸成 3D 实体形状的完整参数和过程，以 JSON 代码格式储存和表示。这类表示方法与专业建模工程师构建 CAD 模型的过程最为近似，可以直接被导入 AutoDesk、 ProE 等建模软件。构建这些 CAD 模型需要领域专业知识和空间推理能力，也需要较高的学习成本。

图 1. CAD 建模代码示意图

作为空间智能的关键能力之一，空间建模能力对 MLLM 提出了严峻的挑战。尽管 MLLM 在生成 2D 网页布局代码等方面展现出了卓越的性能，这类方法在 3D 建模领域仍然存在问题，比如生成 4 个平行于车底方向车轮的小车。这是因为 MLLM 在推理 3D 草图角度和 3D 空间位置时受限于大语言模型的 1D 推理惯性，难以理解复杂数字背后真正的空间含义。

图 2. 原始多模态大模型 3D 建模效果差原因分析

近期，来自上海交通大学的 i-WiN 研究团队提出了专门用于 CAD 建模的多模态大语言模型 CAD-GPT，结合专门设计的 3D 建模空间定位机制，将 3D 参数映射到 1D 语言信息维度，提高了 MLLM 的空间推理能力，实现了基于单张图片或一句话描述的精准 CAD 建模构造序列生成。该项研究以《CAD-GPT: Synthesising CAD Construction Sequence with Spatial Reasoning-Enhanced Multimodal LLMs》为题，被 AAAI 2025 接收。

论文标题：CAD-GPT: Synthesising CAD Construction Sequence with Spatial Reasoning-Enhanced Multimodal LLMs
论文地址：https://arxiv.org/abs/2412.19663
项目地址：https://OpenIWIN.github.io/CAD-GPT/

方法介绍

3D 建模空间定位机制

我们把关键的 3D、2D 建模参数定义为大语言模型可以理解的建模语言，便于大模型理解和生成。具体来说，设计了 3 个系列的定位 token 来代替 3D 草图平面起点坐标、3D 草图平面角度和 2D 草图曲线坐标的参数。通过将全局空间 3D 坐标、草图平面 3D 旋转角度的特征展开到一维语言特征空间，将它们转换为两类不同的 1D 位置 tokens。此外，2D 草图被离散化并转换为特殊的 2D token。这些 token 被合并到原始 LLM 词表中。同时，纳入了 3 类适配 3 种 token 的自定义可学习的位置嵌入，以弥合语言和空间位置之间的差距。