AI在线 AI在线

设计师大解放!清华发布「建筑平面图」自动生成模型 | ACL'25

建筑平面图是AEC(建筑、工程、施工)领域的核心 「语言」,贯穿设计思想草绘、方案交流与落地执行全流程。 而住宅作为人们日常生活的基本空间载体,其平面图更是在建筑设计早期发挥着核心作用。 然而,传统平面图设计流程高度依赖建筑师个人经验,存在效率低、反馈慢、缺乏智能辅助等问题。

建筑平面图是AEC(建筑、工程、施工)领域的核心 「语言」,贯穿设计思想草绘、方案交流与落地执行全流程。而住宅作为人们日常生活的基本空间载体,其平面图更是在建筑设计早期发挥着核心作用。

然而,传统平面图设计流程高度依赖建筑师个人经验,存在效率低、反馈慢、缺乏智能辅助等问题。

针对这一挑战,平面图自动生成模型(如GAN、扩散模型)不断涌现,但现有研究忽略了一个关键矛盾:

传统评估依赖FID、PSNR、GED等统计指标,仅衡量图像质量或结构相似性,完全未融入建筑专业知识——即便模型在这些指标上表现优异,生成的平面图仍可能存在 「功能分区混乱、流线低效、空间比例失衡」 等致命问题,难以应用于实际设计。

此外,已有研究方案还存在三重局限:

1. 数据集缺乏建筑师专业反馈,无法为模型提供 「何为合理设计」 的指导;

2. 是评估标准与建筑实际需求脱节,无法筛选出真正可行的方案;

3. 是生成模型未整合人类反馈优化,难以对齐建筑师的设计偏好。

针对上述痛点,清华大学深圳国际研究生院副教授吕帅团队提出FloorPlan-LLaMa模型,采用自回归生成架构,并创新性地引入「基于人类反馈的强化学习(RLHF)」机制,使模型在自动生成建筑平面图时,能够有效实现住宅功能区域分布的合理性与空间布局的清晰性,同时具备良好的房间轮廓表达与形式美感。

设计师大解放!清华发布「建筑平面图」自动生成模型 | ACL'25

论文地址:https://aclanthology.org/2025.acl-long.331/

模型不仅学习建筑师在功能分区与空间流线组织方面的专业偏好,还能够把握整体构图的协调性与设计逻辑。

该方法实现设计生成与专家判断之间的深度协同,提升了生成式平面图在实际使用场景中的设计质量与实用价值。

设计师大解放!清华发布「建筑平面图」自动生成模型 | ACL'25

FloorPlan-LLaMa模型的优势

该论文近日被自然语言处理与人工智能领域的国际顶级学术会议ACL录用,并获得领域主席奖。

ACL大会是自然语言处理与人工智能领域的国际顶级学术会议。

本届大会共收到超过8000篇投稿,243篇论文被遴选为口头报告,47篇论文获得高级领域主席推荐奖(SAC Highlights)。

FP-LLaMa模型的成功入选,充分体现了该研究在跨学科创新和应用实践方面的领先性和影响力。

第一作者为清华大学博士生殷俊,共同第一作者为清华大学博士生曾鹏宇,通讯作者为该校副教授吕帅,团队其它成员还包括孙浩源,张淼,戴语琴,郑涵,张亚超。

技术核心

FloorPlan-LLaMa 模型围绕「让 AI 理解建筑专业需求」的理念设计,其包含数据集、评分模型和生成模型三大核心组件:

研究人员提出了ArchiMetricsNet数据集,这是第一个包含三个专业评估维度(功能性、流线和整体评估)以及详细文本分析的平面图数据集。

设计师大解放!清华发布「建筑平面图」自动生成模型 | ACL'25

ArchiMetricsNet数据集内容示意

研究人员使用ArchiMetricsNet数据集,训练了一个专为平面图多维度评估设计的模型FloorPlan-MPS(多维度偏好分数),将该模型生成的分数称为ARS(建筑合理性分数)。

研究人员开发了FP-LLaMa生成模型,一个基于自回归框架的平面图生成模型。

为了整合建筑师的专业知识和偏好,FloorPlan-MPS在RLHF过程中被用作奖励模型,使FP-LLaMa的输出与社区需求保持一致。

该方法采用了自回归生成机制,巧妙地消除了RLHF阶段反向扩散过程中对噪声预测的需要。

具体来说,使用FloorPlan Tokenizer将平面图转换为离散的词元序列,并使用Next-Token Prediction顺序生成平面图。

此外,为了提高效率,研究人员还结合了类条件机制和无分类器指导。

设计师大解放!清华发布「建筑平面图」自动生成模型 | ACL'25

FP-LLaMa的三大阶段框架

FloorPlan Tokenizer:采用与VQGAN类似的编码器-量化器-解码器框架,可将连续的楼层平面图数据转换为离散标记,且训练时会同时采用重建损失、基于LPIPS的感知损失及来自PatchGAN判别器的对抗损失:

设计师大解放!清华发布「建筑平面图」自动生成模型 | ACL'25

Next-Token Prediction:在推理时,FP-LLaMa使用自回归框架按顺序生成词元。对于楼层平面图词元序列带有自回归预测的Next-Token。

当For到达推理层时,计划词元FP-LLaMa序列生成设计师大解放!清华发布「建筑平面图」自动生成模型 | ACL'25,下一个词元的概率由下式给出:

设计师大解放!清华发布「建筑平面图」自动生成模型 | ACL'25

作为一个融合了建筑学专业知识的模型,该方法实现设计生成与专家判断之间的深度协同,提升了生成式平面图在实际使用场景中的设计质量与实用价值。

实验结果

研究人员在提出的建筑指标网络(ArchiMetricsNet)数据集上进行实验,采用四个关键评估指标:

FID(弗雷歇初始距离)、SSIM(结构相似性指数测量)、PSNR(峰值信噪比)以及新提出的ARS(建筑合理性得分,FloorPlan - MPS模型的评估结果)。

研究人员测试了两种不同的生成任务:类别条件生成和文本条件生成。

对比时选择了以下基线方法:HouseGAN 、HouseGAN++、HouseDiffusion 、FloorPlanDiffusion 、Tell2Design、Obj-GAN、Qwen2.5-7B-Instruct、ChatGLM4V。

定性实验

类条件生成

生成中HouseGAN 等现有先进模型或基于图形、或用输入房间块生成布局,为公平比较,每种方法均采样500张图像并选建筑合理性得分中位数示例,按FloorPlanDiffusion颜色配置展示。

设计师大解放!清华发布「建筑平面图」自动生成模型 | ACL'25

不同方法在Text-Conditional task上生成的平面图的定性结果

设计师大解放!清华发布「建筑平面图」自动生成模型 | ACL'25

ClassConditional任务上的平均人工评估分数

设计师大解放!清华发布「建筑平面图」自动生成模型 | ACL'25

ClassConditional任务上的人工评估胜率

文本条件生成

受Tell2Design启发,研究人员将大语言模型用于 「隔壁房间序列预测」任务,以 Llama-3.2-11B-Vision-Instruct 为主干,对比 ChatGLM4V 等模型;

现有方法虽能生成高质量图像,但建筑师视角下次优,而带RLHF的FP-LLaMa布局更实用。

定量实验

为公平比较,研究人员计算不同方法生成平面图的度量时采用FloorPlanDiffusion配色方案,下表展现传统指标性能。

设计师大解放!清华发布「建筑平面图」自动生成模型 | ACL'25

不同方法间类条件生成结果

设计师大解放!清华发布「建筑平面图」自动生成模型 | ACL'25

不同方法在文本条件生成中的结果

设计师大解放!清华发布「建筑平面图」自动生成模型 | ACL'25

下表则使用建筑合理性得分(ARS)评估;

设计师大解放!清华发布「建筑平面图」自动生成模型 | ACL'25

不同方法在类条件生成中的建筑合理些得分(ARS)

设计师大解放!清华发布「建筑平面图」自动生成模型 | ACL'25

不同方法在文本条件生成中的建筑合理些得分(ARS)

结果表现为FP-LLaMa传统指标最佳,加RLHF后传统指标略降,但ARS比次优方法高8.54%且贴合建筑师偏好,未加RLHF的FP-LLaMa评分近传统方法,这说明清晰度和与真实值相似性不代表设计合理,因原始数据集含不合理布局且有偏差。

总结

研究人员试图通过引入ArchiMetricsNet(一个具有人类反馈的数据集)来解决现有建筑平面图生成和评估方法的局限性;

FP-LLaMa,一个微调的自回归模型,与专业建筑师保持一致。

这项工作推进了人类专业知识在建筑平面图生成技术中的整合,并展示了大型自回归生成模型在「建筑、工程与施工」领域的潜力。

相关资讯

LineArt:无需训练的高质量设计绘图生成方法,可保留结构准确性并生成高保真外观

本文经AIGC Studio公众号授权转载,转载请联系出处。 今天给大家介绍一种无需训练的基于扩散模型的高质量设计绘图外观迁移方法LineArt,该方法可以将复杂外观转移到详细设计图上的框架,可促进设计和艺术创作。 现有的图像生成技术在细节保留和风格样式一致性方面存在局限,尤其是在处理专业设计图时。
1/20/2025 10:23:00 AM
AIGC Studio

你要跳舞么?复旦&微软提出StableAnimator:可实现高质量和高保真的ID一致性人类视频生成

本文经AIGC Studio公众号授权转载,转载请联系出处。 由复旦、微软、虎牙、CMU的研究团队提出的StableAnimator框架,实现了高质量和高保真的ID一致性人类视频生成。 StableAnimator 生成的姿势驱动的人体图像动画展示了其合成高保真和 ID 保留视频的能力。
1/22/2025 10:30:00 AM
AIGC Studio

阿里通义实验室提出AnyStory:开启个性化文本到图像生成的新篇章!

在这个数字化时代,生成式AI技术正以前所未有的速度改变着我们的创作方式。 近期,阿里通义实验室发表了一篇题为《AnyStory: Towards Unified Single and Multi-Subject Personalization in Text-to-Image Generation》的论文,该论文提出了一种创新的框架,旨在通过统一的路径实现单个及多个主体的个性化文本到图像生成,为故事可视化、艺术创作乃至更多领域带来了革命性的突破。 论文中深入探讨了当前文本到图像生成技术面临的挑战,如主体一致性、细节保留以及多主体个性化等方面的不足。
1/24/2025 12:11:21 PM
AIGC Studio
  • 1