ICML 2021 | 鉴于拆卸的视频无监视零件肢解

本文是第三十八届国际机器进修会议（ICML 2021）入选论文《鉴于拆卸的视频无监视零件肢解（Unsupervised Co-part Segmentation through Assembly）》的解读。该论文由北京大学陈宝权-刘利斌研究团队与山东大学、北京电影学院未来影像高精尖创新中心合作，提出了一种无监视的图像零件肢解步骤，创新性地采用了将零件肢解进程和零件拆卸进程相结合的自监视进修思路，利用视频中的运动信息来提取潜在的零件特色，从而完成对物体零件的有意义的肢解。

论文链接：https://arxiv.org/abs/2106.05897

代码地址：https://github.com/Talegqz/unsupervised_co_part_segmentation

01 引言

ICML 2021 | 鉴于拆卸的视频无监视零件肢解

零件肢解 (co-part segmentation) 是计算机视觉领域中的一个重要问题。它通过识别图片中指标对象的组成零件 (part) ，并将属于每一个零件的像素聚类到一起，可以为有铰链结构的物体提供较为紧凑且有意义的零件结构 (part-structure) 表示。它可以利用于运动追踪、动作识别、机器人操纵以及自动驾驶等具体任务，因而具有重要的研究价值。

随着深度进修的发展以及大量的标注数据集的出现，鉴于监视的进修步骤已经在包括零件肢解在内的很多视觉问题上超越了传统的步骤。但这类进修步骤往往需要大量的先验知识，并且高度依赖高质量数据集标注，较难利用到未曾见过的物体上。

在本项研究中，我们提出了一种无监视的图像零件肢解步骤，创新性地采用了将零件肢解进程和零件拆卸进程相结合的自监视进修思路，利用视频中的运动信息来提取潜在的零件特色，从而完成对物体零件的有意义的肢解。我们通过在人体、人手、四足动物、机械臂等不同研究对象的视频上的测试，证明了这一无监视图像零件肢解步骤有效性。同时，定量实验的对比也表明该步骤的效果优于现有的鉴于无监视进修的工作，达到了较高的水平。

02 方法

我们的步骤鉴于一个假设，即视频中的运动物体是由不变的零件组成，视频中帧与帧的区别只是零件的不同位置和缩放之间的区别，通过零件之间的仿射转换，我们可以将视频中的一帧转换为另一帧。鉴于这一假设，我们利用神经网络分析两张图片之间的转换，自动将图片肢解为不同的零件并进修其对应的转换方式，进而根据另一张图片的信息重新组装这些零件，从而完成无监视的零件肢解。

对于单张图片来说，零件的肢解拆卸进程如下图所示。首先，我们利用编码器把输入图片编码为零件特色和零件转换。然后，其中的零件特色将通过解码器生成相应的零件图片和零件蒙版。最后，这些零件图片将根据对应的零件蒙版被组装成最终的图片。

ICML 2021 | 鉴于拆卸的视频无监视零件肢解

零件肢解拆卸的结构

而在训练时，我们每次随机从视频中选择两帧作为源图片和指标图片。我们假定视频中零件都存在一个标准的特色表示，而每一个零件的转换是相对于标准特色的转换。在此基础上，我们可以通过逆转换将源图片的零件特色转换到标准特色，然后再利用指标图片的转换得到新的转换特色，通过这个新的特色可以生成预测的指标图片。

ICML 2021 | 鉴于拆卸的视频无监视零件肢解

鉴于零件肢解拆卸的训练进程

在训练进程中，我们要求神经网络能够尽可能地重构指标图片。由于上述组装进程的约束，只有更准确的肢解才能完成更好的生成结果。因而通过这种方式，我们完成了对图片肢解的自监视进修。而进一步地，我们限定转换为只包括旋转、缩放、平移的仿射转换，并且假定在标准特色空间中每一个零件的中心在原点位置，同时协方差矩阵为单位矩阵。在训练中我们要求在经过转换后，零件的中心应该与转换的平移部分一致，而零件的协方差矩阵与旋转缩放矩阵一致。鉴于这个约束，我们可以使网络学到的零件肢解和转换有更明确的物理意义，增加了结果的可解释性。

03 实验结果

我们的步骤不需要任何标注，可以直接利用于人体、手、四足动物和机械臂等对象。

ICML 2021 | 鉴于拆卸的视频无监视零件肢解