AI在线 AI在线

Diffusion-SS3D:用扩散去噪革新半监督3D检测,伪标签更准,mAP提升6%!

一眼概览SemCity 是一种 基于三平面扩散(Triplane Diffusion) 的 3D 语义场景生成模型,能够在 真实户外环境 中进行 场景生成、语义补全、场景扩展(Outpainting)和修补(Inpainting),并在 SemanticKITTI 数据集 上显著提升生成质量。 核心问题背景问题:当前 3D 扩散模型大多专注于 单个物体 或 室内合成场景,对于 真实户外场景 仍然缺乏研究。 此外,户外数据由于传感器局限性(空白区域较多),导致模型难以学习 完整的三维语义分布。

1. 一眼概览

SemCity 是一种 基于三平面扩散(Triplane Diffusion) 的 3D 语义场景生成模型,能够在 真实户外环境 中进行 场景生成、语义补全、场景扩展(Outpainting)和修补(Inpainting),并在 SemanticKITTI 数据集 上显著提升生成质量。

2. 核心问题

背景问题:当前 3D 扩散模型大多专注于 单个物体 或 室内合成场景,对于 真实户外场景 仍然缺乏研究。此外,户外数据由于传感器局限性(空白区域较多),导致模型难以学习 完整的三维语义分布核心挑战:如何在 稀疏、不完整的真实户外数据 中 生成完整、语义连贯的 3D 场景,并支持 对象添加、移除和扩展应用价值:自动驾驶、智能城市建模、增强现实(AR)、机器人导航等都依赖 高质量 3D 语义场景生成,提高 环境理解能力

3. 技术亮点

1. 三平面扩散(Triplane Diffusion)建模:采用 Triplane 表示 作为代理表示,解决 真实户外场景数据稀疏问题,比 传统体素方法(Voxel-based) 更高效。

2. 三平面编辑(Triplane Manipulation):实现 无缝的对象添加、移除、修改,支持 场景修补(Inpainting)、扩展(Outpainting)和语义补全(SSC Refinement)

3. 高质量户外场景生成:在 SemanticKITTI 数据集上大幅提升场景生成质量,优于当前基于扩散的 3D 生成方法。

4. 方法框架

图片图片

SemCity 采用 三平面扩散模型(Triplane Diffusion),核心流程如下:

1. 三平面编码(Triplane Encoding)

• 采用 Triplane Autoencoder 将 3D 体素场景 转换为 三平面表示(xy、xz、yz)

• 该表示减少了不必要的空白信息,提高 数据表示效率

2. 三平面扩散(Triplane Diffusion)

• 通过 去噪扩散过程(Denoising Diffusion Probabilistic Models, DDPM)学习 三平面数据分布

• 通过 反向扩散 生成 新的三平面,再解码成完整 3D 语义场景

3. 三平面编辑(Triplane Manipulation)

• 场景修补(Inpainting):在 3D 空间中无缝 去除或添加物体,增强 语义一致性

• 场景扩展(Outpainting)向四周扩展场景,可生成 城市级别 的 3D 场景。

• 语义补全(SSC Refinement):优化 语义场景补全,提高 SSC 任务的 IoU 和 mIoU

5. 实验结果速览

图片图片

SemCity 在 真实户外数据 上取得 最佳 3D 语义场景生成性能

• SemanticKITTI(真实数据集)

a.FID 下降 50%(从 112.82 → 56.55),表示生成场景更接近真实数据。

b.KID 下降 67%(从 0.12 → 0.04),生成质量更稳定。

c.mIoU 提升 6.64%,显著改善 语义一致性

• CarlaSC(合成数据集)

• FID 下降 54%(从 87.39 → 40.63),生成质量更高。

• KID 下降 78%,生成稳定性提升。

• SSC 任务提升

• MonoScene + SemCity:mIoU 提升 5.58%(11.50 → 17.08

• OccDepth + SemCity:mIoU 提升 3.95%(12.84 → 16.79

• SCPNet + SemCity:mIoU 提升 0.64%(37.55 → 38.19

• SSA-SC + SemCity:mIoU 提升 1.04%(24.54 → 25.58

6. 实用价值与应用

SemCity 提供了 高效、灵活的真实户外 3D 语义场景生成,适用于多个领域:

• 自动驾驶 🚗:提升 3D 语义理解,帮助 感知系统 处理 不完整的激光雷达数据

• 智能城市建模 🏙️:支持 城市级别 3D 场景生成,用于 数字孪生(Digital Twin) 和 城市规划

• 机器人导航 🤖:提高 机器人在复杂环境中的导航能力,增强 自主感知

• 增强现实(AR/VR) 🎮:在 AR/VR 应用 中创建 更真实的交互式 3D 场景

开放问题

1. SemCity 在极端场景(如夜间或大雾环境)下的生成质量如何?

2. 三平面扩散的语义理解能力能否推广到室内 3D 场景?

3. 如何进一步提升 SemCity 处理细粒度对象(如小型路牌)的能力?

4. 三平面扩散模型是否可以与 NeRF 结合,提升 3D 生成质量?

相关资讯

SD WebUI 中也能用上实时绘画了!支持接入PS/Blender 等设计工具

大家好,这里是和你们一起探索 AI 绘画的花生~ 之前为大家介绍过 AI 绘画工具 Krea,它可以根据手绘的草图实时生成完整的画面,可以让我们更精准地控制图像效果,对电商、产品、游戏概念等设计领域来说非常有帮助。之前为大家推荐过一种在 ComfyUI 中免费实现 AI 实时绘画的方式,今天就再为大家推荐另一种在 Stable Diffusion WebUI 中实现实时绘画的方法。一、插件简介 SD WebUI 的实时绘画功能需要借助一个插件实现,这个插件是上周由 B 站 AI 绘画博主@朱尼酱推出,支持文生图、图
1/23/2024 6:55:37 AM
夏花生

Stable Diffusion 3震撼发布,采用Sora同源技术,文字终于不乱码了

Stable Diffusion 3 和 Sora 一样采用了 diffusion transformer 架构。继 OpenAI 的 Sora 连续一周霸屏后,昨晚,生成式 AI 顶级技术公司 Stability AI 也放了一个大招 ——Stable Diffusion 3。该公司表示,这是他们最强大的文生图模型。与之前的版本相比,Stable Diffusion 3 生成的图在质量上实现了很大改进,支持多主题提示,文字书写效果也更好了。以下是一些官方示例:提示:史诗般的动漫作品,一位巫师在夜晚的山顶上向漆黑的
2/23/2024 11:23:00 AM
机器之心

AI绘画神器Stable Diffusion模型再升级!新版亮点全面盘点!

大家好,这里是和你们聊设计的花生~ 之前为大家对比了 6 款在线 AI 绘画软件在不同主题上的图像生成效果,最终是 Midjourney 的整体表现最好,而 Stability AI 官方模型 Stable Diffusion v2.1 则表现不尽如人意。最近 Stability AI 又推出了一个新模型 Stable Diffusion XL,参数是 SD v2.1 的 2.5 倍,那这个新模型的图像生成效果如何呢?今天就继续来测试一下。 往期回顾:Stable Diffusion XL 简介 DreamStud
4/18/2023 8:39:13 AM
夏花生