AI在线 AI在线

首个,专攻点云上下文学习自适应采样!支持点级、提示级|CVPR 2025

3D点云处理(PCP)涉及多种任务,如分割、去噪、配准、重建等,传统方法通常是为每个任务设计专用模型,导致过程繁杂、成本高昂。 虽然多任务学习(MTL)能缓解模型数量问题,但在任务冲突、参数调优方面仍存在挑战。 近年来兴起的In-Context Learning(ICL,上下文学习)技术,是指大型语言模型在不进行显式参数更新的情况下,仅通过输入中的示例(即上下文信息)来完成新的任务。

3D点云处理(PCP)涉及多种任务,如分割、去噪、配准、重建等,传统方法通常是为每个任务设计专用模型,导致过程繁杂、成本高昂。

虽然多任务学习(MTL)能缓解模型数量问题,但在任务冲突、参数调优方面仍存在挑战。

近年来兴起的In-Context Learning(ICL,上下文学习)技术,是指大型语言模型在不进行显式参数更新的情况下,仅通过输入中的示例(即上下文信息)来完成新的任务。

在3D点云领域,由于点云数据本身具有非结构化和无序性,因此点云的采样策略成为实现有效上下文学习的关键因素,不可忽视。

图片

浙江大学、内华达大学里诺分校的研究人员提出首个专为点云上下文学习设计的多粒度自适应采样机制MICAS,包含两个关键模块:任务自适应点采样(Task-adaptive Point Sampling)与查询特定提示采样(Query-specific Prompt Sampling),分别从点级(point-level)和提示级(prompt-level)两个维度出发,有效提升ICL在3D点云任务中的稳健性与适应性。

图片

论文链接:https://arxiv.org/abs/2411.16773

图片

MICAS实现

图片

任务自适应点采样

利用任务相关的信息,优化每个点的采样过程,以提高不同任务间(例如去噪、分割、配准、重建)对点的选择精度。

1. 提示理解(Prompt Understanding):使用PointNet作为编码器,从输入prompt中提取出任务特征,再将输入点云和目标点云的特征进行拼接,生成任务特征。

2. Gumbel采样(Gumbel Sampling):使用Gumbel-softmax实现可微分的采样,将任务特征和当前点云的特征结合,通过正态化的sampling weights生成最终的采样结果,让模型在训练期间得到更高的效能。

查询特定提示采样

在同一个任务下,对不同的查询提高提示的相关性,来解决任务内部的敏感性。

  1. 伪标签生成:利用ICL模型来生成预测结果,评估其与真实值之间的差异,将模型性能作为伪标签;
  2. 采样分值计算:根据不同候选提示对每个查询点云计算采样分值,选择分值最高的提示作为最终输入。
  3. 损失函数:用List-wise ranking loss优化提示的选择顺序,提高模型的整体性能。

实验分析

评估数据集:使用ShapeNet In-Context Dataset,该数据集包含了多种「输入-目标」点云的对,以便进行全面的任务评估。

评估指标:使用Chamfer Distance(CD)和Mean Intersection over Union(mIOU)来衡量不同任务的性能。例如,CD用于重建、去噪和配准任务,mIOU用于分割任务。

研究人员验证了文中所提出的任务自适应点采样(Task-adaptive Point Sampling)与查询特定提示采样(Query-specific Prompt Sampling)两个模块的有效性,设计并开展了多组消融实验。

同时,为进一步验证所提方法 MICAS 的鲁棒性与通用性,在多种点云深度学习模型上进行了测试。

图片

实验结果表明:任务自适应点采样模块在点云去噪(Denoising)与部件分割(Part Segmentation)任务中带来显著性能提升,而查询特定提示采样模块则在点云重建(Reconstruction)与配准(Registration)任务中表现更加优越。

综合结果进一步印证了两种采样策略在不同任务中各具优势,分别从点级(point-level)与提示级(prompt-level)两个粒度对上下文构建形成互补效应,共同推动模型性能的全面提升。

模型训练和推理可视化

首个,专攻点云上下文学习自适应采样!支持点级、提示级|CVPR 2025

实验结果对比可视化

研究人员从中心点采样质量与模型预测性能两个维度对比了所提MICAS方法与Baseline方法。

图片

图片

实验结果表明,MICAS所采用的自适应采样策略在中心点选择上优于Baseline中常用的最远点采样(Farthest Point Sampling, FPS),从而进一步带来了更优的下游任务预测效果。

首个,专攻点云上下文学习自适应采样!支持点级、提示级|CVPR 2025

重建任务的采样结果对比

首个,专攻点云上下文学习自适应采样!支持点级、提示级|CVPR 2025

去噪任务的采样结果对比

首个,专攻点云上下文学习自适应采样!支持点级、提示级|CVPR 2025

配准任务的采样结果对比

首个,专攻点云上下文学习自适应采样!支持点级、提示级|CVPR 2025

分割任务的采样结果对比

相关资讯

东京大学 | Adobe 提出InstructMove,可通过观察视频中的动作来实现基于指令的图像编辑

InstructMove是一种基于指令的图像编辑模型,使用多模态 LLM 生成的指令对视频中的帧对进行训练。 该模型擅长非刚性编辑,例如调整主体姿势、表情和改变视点,同时保持内容一致性。 此外,该方法通过集成蒙版、人体姿势和其他控制机制来支持精确的局部编辑。
1/20/2025 10:36:00 AM
AIGC Studio

阿里发布新ID保持项目EcomID, 可从单个ID参考图像生成定制的保ID图像,ComfyUI可使用

阿里妈妈发布了一个新的ID保持项目EcomID,旨在从单个ID参考图像生成定制的保ID图像,优势在于很强的语义一致性,同时受人脸关键点控制。 EcomID 方法结合了 PuLID 和 InstantID 的优点,以获得更好的背景一致性、面部关键点控制、更真实的面部以及更高的相似度。 目前,EcomID 的 Comfyui 原生实现官方插件也已经发布,大家可以从文章中的链接获取。
1/20/2025 11:00:00 AM
AIGC Studio

o1推理框架最新成果:斯坦福&伯克利提出元链式思维,升级模型推理能力

o1背后的推理原理,斯坦福和伯克利帮我们总结好了! 在最新的一篇长达100页的论文中,他们将o1模型背后的推理机制提炼成了一个通用的框架——元链式思维(Meta-CoT)。 这个元链式思维(Meta-CoT)到底是什么意思呢?
1/20/2025 1:08:25 PM
量子位
  • 1