AI在线 AI在线

图像 - 点云联合生成框架

登上NeurIPS,Genesis开创无需OCC引导的多模态生成新范式,在视频与激光雷达指标上达到SOTA水平

由华中科技大学与小米汽车提出了业内首个无需 OCC 引导的多模态的图像 - 点云联合生成框架 Genesis。 该算法只需基于场景描述和布局(包括车道线和 3D 框),就可以生成逼真的图像和点云视频。 论文题目:Genesis: Multimodal Driving Scene Generation with Spatio-Temporal and Cross-Modal Consistency论文链接: 链接:xiaomi-research/genesisGenesis 采用两阶段架构:第一阶段基于透视图投影的布局和场景描述等条件,利用基于 DiT 的扩散模型学习 3D 变分自编码器编码的环视图特征; 第二阶段将第一阶段多视角视频序列转到鸟瞰图的特征空间,并结合场景描述和布局等条件,学习 2D 自编码器编码的点云特征。
9/28/2025 1:00:00 PM
机器之心
  • 1