论文链接:https://arxiv.org/abs/2106.05897
代码地址:https://github.com/Talegqz/unsupervised_co_part_segmentation
01 引 言
零件宰割 (co-part segmentation) 是计算机视觉领域中的一个重要问题。它通过识别图片中宗旨对象的组成零件 (part) ,并将属于每一个零件的像素聚类到一起,可以为有铰链结构的物体提供较为紧凑且有意义的零件结构 (part-structure) 表示。它可以运用于运动追踪、动作识别、机器人操纵以及自动驾驶等具体任务,因而具有重要的研究价值。
随着深度进修的发展以及大量的标注数据集的出现,鉴于监视的进修法子已经在包括零件宰割在内的很多视觉问题上超越了传统的法子。但这类进修法子往往需要大量的先验知识,并且高度依赖高质量数据集标注,较难运用到未曾见过的物体上。
在本项研究中,我们提出了一种无监视的图像零件宰割法子,创新性地采用了将零件宰割历程和零件拆卸历程相结合的自监视进修思路,利用视频中的运动信息来提取潜在的零件特性,从而实行对物体零件的有意义的宰割。我们通过在人体、人手、四足动物、机械臂等不同研究对象的视频上的测试,证明了这一无监视图像零件宰割法子有效性。同时,定量实验的对比也表明该法子的效果优于现有的鉴于无监视进修的工作,达到了较高的水平。
02 方 法
我们的法子鉴于一个假设,即视频中的运动物体是由不变的零件组成,视频中帧与帧的区别只是零件的不同位置和缩放之间的区别,通过零件之间的仿射变更,我们可以将视频中的一帧转换为另一帧。鉴于这一假设,我们利用神经网络分析两张图片之间的转换,自动将图片宰割为不同的零件并进修其对应的变更方式,进而根据另一张图片的信息重新组装这些零件,从而实行无监视的零件宰割。
对于单张图片来说,零件的宰割拆卸历程如下图所示。首先,我们利用编码器把输入图片编码为零件特性和零件变更。然后,其中的零件特性将通过解码器生成相应的零件图片和零件蒙版。最后,这些零件图片将根据对应的零件蒙版被组装成最终的图片。
零件宰割拆卸的结构
而在训练时,我们每次随机从视频中选择两帧作为源图片和宗旨图片。我们假定视频中零件都存在一个标准的特性表示,而每一个零件的变更是相对于标准特性的变更。在此基础上,我们可以通过逆变更将源图片的零件特性变更到标准特性,然后再利用宗旨图片的变更得到新的变更特性,通过这个新的特性可以生成预测的宗旨图片。
鉴于零件宰割拆卸的训练历程
在训练历程中,我们要求神经网络能够尽可能地重构宗旨图片。由于上述组装历程的约束,只有更准确的宰割才能实行更好的生成结果。因而通过这种方式,我们实行了对图片宰割的自监视进修。而进一步地,我们限定变更为只包括旋转、缩放、平移的仿射变更,并且假定在标准特性空间中每一个零件的中心在原点位置,同时协方差矩阵为单位矩阵。在训练中我们要求在经过变更后,零件的中心应该与变更的平移部分一致,而零件的协方差矩阵与旋转缩放矩阵一致。鉴于这个约束,我们可以使网络学到的零件宰割和变更有更明确的物理意义,增加了结果的可解释性。
03 实验结果
我们的法子不需要任何标注,可以直接运用于人体、手、四足动物和机械臂等对象。
人手、马、人体以及机械臂的宰割结果
而与其他现有的无监视法子相比,我们的法子实行了更加一致且紧凑的宰割,并在宰割一致性和前景准确性的定量实验上超过了现有的法子。
在 VoxCeleb 和 Tai-Chi-HD 数据集上与其他法子的对比结果
如下图所示,我们的网络可以进修到每一个零件的宰割,并可以将零件重新组合为输入图片。
零件宰割的结果展示
每一个零件的图片由解码器得到,最后组装为源图片
同时,在损失函数约束下,我们可以进修到可解释的仿射变更,其中估计的变更与每一个零件运动的方向相一致。
仿射变更可解释性的对比
图片分别对应 Motion Co-part 的结果,以及我们的法子在不使用变更损失函数和使用变更损失函数下所训练的模型结果
另外,通过在较大的数据集上训练,我们的模型可以扩展到同类型的新图片上。例如下图所示,我们可将在 Tai-Chi-HD 和 VoxCeleb 等数据集上训练的模型无缝运用到在 Youtube 上找到的同类新视频上。
图文 | 高庆哲
Visual Computing and Learning (VCL)
原创文章,作者:北京大学前沿计算研究中心,如若转载,请注明出处:https://www.iaiol.com/news/icml2021-jian-yu-chai-xie-de-shi-pin-wu-jian-shi-ling-jian/