AI在线 AI在线

多模态大语言模型空间智能新探索:仅需单张图片或一句话,就可以精准生成3D建模代码啦!

计算机辅助设计(CAD)已经成为许多行业设计、绘图和建模的标准方法。 如今,几乎每一个制造出来的物体都是从参数化 CAD 建模开始的。 CAD 构造序列是 CAD 模型表示的一种类型,不同于 Mesh 类型的三角网格、B-rep 格式的点、线、面表示,它被描述为一系列建模操作,包括确定草图 3D 起点和 3D 草图平面方向、绘制 2D 草图、将草图拉伸成 3D 实体形状的完整参数和过程,以 JSON 代码格式储存和表示。

计算机辅助设计(CAD)已经成为许多行业设计、绘图和建模的标准方法。如今,几乎每一个制造出来的物体都是从参数化 CAD 建模开始的。CAD 构造序列是 CAD 模型表示的一种类型,不同于 Mesh 类型的三角网格、B-rep 格式的点、线、面表示,它被描述为一系列建模操作,包括确定草图 3D 起点和 3D 草图平面方向、绘制 2D 草图、将草图拉伸成 3D 实体形状的完整参数和过程,以 JSON 代码格式储存和表示。这类表示方法与专业建模工程师构建 CAD 模型的过程最为近似,可以直接被导入 AutoDesk、 ProE 等建模软件。构建这些 CAD 模型需要领域专业知识和空间推理能力,也需要较高的学习成本。

图片

图 1. CAD 建模代码示意图

作为空间智能的关键能力之一,空间建模能力对 MLLM 提出了严峻的挑战。尽管 MLLM 在生成 2D 网页布局代码等方面展现出了卓越的性能,这类方法在 3D 建模领域仍然存在问题,比如生成 4 个平行于车底方向车轮的小车。这是因为 MLLM 在推理 3D 草图角度和 3D 空间位置时受限于大语言模型的 1D 推理惯性,难以理解复杂数字背后真正的空间含义。

图片

图 2. 原始多模态大模型 3D 建模效果差原因分析

近期,来自上海交通大学的 i-WiN 研究团队提出了专门用于 CAD 建模的多模态大语言模型 CAD-GPT,结合专门设计的 3D 建模空间定位机制,将 3D 参数映射到 1D 语言信息维度,提高了 MLLM 的空间推理能力,实现了基于单张图片或一句话描述的精准 CAD 建模构造序列生成。该项研究以《CAD-GPT: Synthesising CAD Construction Sequence with Spatial Reasoning-Enhanced Multimodal LLMs》为题,被 AAAI 2025 接收。

图片

  • 论文标题:CAD-GPT: Synthesising CAD Construction Sequence with Spatial Reasoning-Enhanced Multimodal LLMs
  • 论文地址:https://arxiv.org/abs/2412.19663  
  • 项目地址:https://OpenIWIN.github.io/CAD-GPT/

方法介绍

3D 建模空间定位机制

我们把关键的 3D、2D 建模参数定义为大语言模型可以理解的建模语言,便于大模型理解和生成。具体来说,设计了 3 个系列的定位 token 来代替 3D 草图平面起点坐标、3D 草图平面角度和 2D 草图曲线坐标的参数。通过将全局空间 3D 坐标、草图平面 3D 旋转角度的特征展开到一维语言特征空间,将它们转换为两类不同的 1D 位置 tokens。此外,2D 草图被离散化并转换为特殊的 2D token。这些 token 被合并到原始 LLM 词表中。同时,纳入了 3 类适配 3 种 token 的自定义可学习的位置嵌入,以弥合语言和空间位置之间的差距。

数据集构建

基于 DeepCAD 数据集,生成了 160k 固定视角渲染的 CAD 模型图像和 18k 相应的自然语言描述数据集,构建专门用于训练多模态大语言模型的 CAD 建模数据集,便于后续其他工作训练大模型生成 CAD 模型建模序列。

训练策略与细节

我们采用 LLaVA - 1.5 7B 版本作为基础模型。训练包括两个阶段:首先在 image2CAD 任务上进行训练,然后在 text2CAD 任务上降低学习率进行微调。此外,因 CAD 建模序列长度较长,我们基于外推法,通过超参调整,扩展 LLM 的窗口长度到 8192。

图片

图 3. CAD-GPT 原理框架图

实验效果展示

图片

图 4. CAD-GPT 生成的各种 CAD 模型展示

图 4 中的模型展示了包含精准语义草图生成能力(如心形和字母 “E”)、带有类别的 CAD 生成能力(如桌子、椅子和钥匙)、空间推理能力(如桌子和相互垂直的圆柱体),以及生成不同尺寸的相同模型的能力(如三个有两个圆孔的不同尺寸连接器)。

基于单张图片的生成效果

将 CAD-GPT 与三种代表性方法进行了比较。第一个是 DeepCAD,它演示了 CAD 建模中的先进生成技术。第二个是 GPT-4,代表了闭源多模态大型模型的前沿。第三个是 Qwen2-VL-Max,这是领先的开源多模态大型模型之一。相比之下,CAD-GPT 产生的输出既准确又美观。

图片

图 5. 基于图片的 CAD 生成效果对比

图片

基于一句话描述生成效果展示

本文选择了两个有代表性的大型语言模型:领先的闭源模型 GPT-4 和最先进的开源模型 LLaMA-3.1(405B)。如图 6 所示,我们的模型始终生成高精度、美观的输出,并且展示出了与文本描述对应的语义信息。

图片

图 6. 基于文本描述的 CAD 生成效果对比

图片

消融实验

图 7 展示了是否添加 3D 建模空间定位机制训练模型的差异。如图所示,添加定位机制后,CAD-GPT 可以精准的推理空间角度、位置变化,以及生成准确的 2D 草图。

图片

图 7. 消融实验效果展示

图片

总结

本文提出 CAD-GPT,一种具有三维建模空间定位机制的多模态大模型,以提高空间推理能力。所提出模型擅长推断草图 3D 方向的变化、3D 空间位置的变化,并准确渲染 2D 草图。利用这些功能,CAD-GPT 在单张图像和文本输入条件下生成精确 CAD 模型方面表现出卓越的性能。

相关资讯

单图直出 CAD 工程文件,新研究解决 AI 生成 3D 模型“不可编辑”痛点

单图直出 CAD 工程文件,新研究解决 AI 生成 3D 模型“不可编辑”痛点

CADCrafter 和过去得到网格(Mesh)或 3D 高斯泼溅(3DGS)的图生 3D 方法大不相同。不管是零件渲染图,还是拍摄的 3D 打印零件,甚至是随意拍摄的日常生活中的物体,CADCrafter 均能够生成的对应的原始 CAD 文件(以 CAD 指令的方式表示,包括表征每个几何特征的指令和对应参数)。
4/14/2025 6:10:47 PM 汪淼
用童话训练AI模型,微软找到了探索生成模型参数的新切入点

用童话训练AI模型,微软找到了探索生成模型参数的新切入点

即便大语言模型的参数规模日渐增长,其模型中的参数到底是如何发挥作用的还是让人难以琢磨,直接对大模型进行分析又费钱费力。针对这种情况,微软的两位研究员想到了一个绝佳的切入点,用生成简练但是又涵盖各种常见逻辑和语法的童话故事来作为模型的生成任务,这样做能在减少模型的学习负担的同时,保留模型对逻辑和语法的学习能力,进而用小模型来分析参数发挥的作用。这种方法可能会开创一条新的研究道路。人们都知道,学英语不是一件容易的事。但假如「学生」是一台计算机,就可以这样高效地学英语:只需将互联网上堆积如山的文本,输入一个名为神经网络的
10/31/2023 2:33:00 PM 机器之心
下一代自动驾驶系统,少不了大模型,系统调研来了

下一代自动驾驶系统,少不了大模型,系统调研来了

本文介绍了将多模态大语言模型(MLLMs)整合到下一代自动驾驶系统中的模式。随着大语言模型 (LLM) 和视觉基础模型 (VFM) 的出现,受益于大模型的多模态人工智能系统有潜力像人类一样全面感知现实世界、做出决策。在最近几个月里,LLM 已经在自动驾驶研究中引起了广泛关注。尽管 LLM 具有巨大潜力,但其在驾驶系统中的关键挑战、机遇和未来研究方向仍然缺乏文章对其详细阐明。在本文中,腾讯地图、普渡大学、UIUC、弗吉尼亚大学的研究人员对这个领域进行了系统调研。该研究首先介绍了多模态大型语言模型 (MLLM) 的背景
12/18/2023 2:55:00 PM 机器之心