ICML 2021 | 鉴于拆卸的视频无监视零件宰割

本文是第三十八届国际机器进修会议(ICML 2021)入选论文《鉴于拆卸的视频无监视零件宰割(Unsupervised Co-part Segmentation through Assembly)》的解读。
该论文由北京大学陈宝权-刘利斌研究团队与山东大学、北京电影学院未来影像高精尖创新中心合作,提出了一种无监视的图像零件宰割法子,创新性地采用了将零件宰割历程和零件拆卸历程相结合的自监视进修思路,利用视频中的运动信息来提取潜在的零件特性,从而实行对物体零件的有意义的宰割。

论文链接:https://arxiv.org/abs/2106.05897

代码地址:https://github.com/Talegqz/unsupervised_co_part_segmentation

ICML 2021 | 鉴于拆卸的视频无监视零件宰割

01 引  言

ICML 2021 | 鉴于拆卸的视频无监视零件宰割

零件宰割 (co-part segmentation) 是计算机视觉领域中的一个重要问题。它通过识别图片中宗旨对象的组成零件 (part) ,并将属于每一个零件的像素聚类到一起,可以为有铰链结构的物体提供较为紧凑且有意义的零件结构 (part-structure) 表示。它可以运用于运动追踪、动作识别、机器人操纵以及自动驾驶等具体任务,因而具有重要的研究价值。

随着深度进修的发展以及大量的标注数据集的出现,鉴于监视的进修法子已经在包括零件宰割在内的很多视觉问题上超越了传统的法子。但这类进修法子往往需要大量的先验知识,并且高度依赖高质量数据集标注,较难运用到未曾见过的物体上。

在本项研究中,我们提出了一种无监视的图像零件宰割法子,创新性地采用了将零件宰割历程和零件拆卸历程相结合的自监视进修思路,利用视频中的运动信息来提取潜在的零件特性,从而实行对物体零件的有意义的宰割。我们通过在人体、人手、四足动物、机械臂等不同研究对象的视频上的测试,证明了这一无监视图像零件宰割法子有效性。同时,定量实验的对比也表明该法子的效果优于现有的鉴于无监视进修的工作,达到了较高的水平。

02 方  法

我们的法子鉴于一个假设,即视频中的运动物体是由不变的零件组成,视频中帧与帧的区别只是零件的不同位置和缩放之间的区别,通过零件之间的仿射变更,我们可以将视频中的一帧转换为另一帧。鉴于这一假设,我们利用神经网络分析两张图片之间的转换,自动将图片宰割为不同的零件并进修其对应的变更方式,进而根据另一张图片的信息重新组装这些零件,从而实行无监视的零件宰割。

对于单张图片来说,零件的宰割拆卸历程如下图所示。首先,我们利用编码器把输入图片编码为零件特性和零件变更。然后,其中的零件特性将通过解码器生成相应的零件图片和零件蒙版。最后,这些零件图片将根据对应的零件蒙版被组装成最终的图片。

ICML 2021 | 鉴于拆卸的视频无监视零件宰割

零件宰割拆卸的结构

而在训练时,我们每次随机从视频中选择两帧作为源图片和宗旨图片。我们假定视频中零件都存在一个标准的特性表示,而每一个零件的变更是相对于标准特性的变更。在此基础上,我们可以通过逆变更将源图片的零件特性变更到标准特性,然后再利用宗旨图片的变更得到新的变更特性,通过这个新的特性可以生成预测的宗旨图片。

ICML 2021 | 鉴于拆卸的视频无监视零件宰割

鉴于零件宰割拆卸的训练历程

在训练历程中,我们要求神经网络能够尽可能地重构宗旨图片。由于上述组装历程的约束,只有更准确的宰割才能实行更好的生成结果。因而通过这种方式,我们实行了对图片宰割的自监视进修。而进一步地,我们限定变更为只包括旋转、缩放、平移的仿射变更,并且假定在标准特性空间中每一个零件的中心在原点位置,同时协方差矩阵为单位矩阵。在训练中我们要求在经过变更后,零件的中心应该与变更的平移部分一致,而零件的协方差矩阵与旋转缩放矩阵一致。鉴于这个约束,我们可以使网络学到的零件宰割和变更有更明确的物理意义,增加了结果的可解释性。

03 实验结果

我们的法子不需要任何标注,可以直接运用于人体、手、四足动物和机械臂等对象。

ICML 2021 | 鉴于拆卸的视频无监视零件宰割

人手、马、人体以及机械臂的宰割结果

而与其他现有的无监视法子相比,我们的法子实行了更加一致且紧凑的宰割,并在宰割一致性和前景准确性的定量实验上超过了现有的法子。

ICML 2021 | 鉴于拆卸的视频无监视零件宰割ICML 2021 | 鉴于拆卸的视频无监视零件宰割

在 VoxCeleb 和 Tai-Chi-HD 数据集上与其他法子的对比结果

如下图所示,我们的网络可以进修到每一个零件的宰割,并可以将零件重新组合为输入图片。

ICML 2021 | 鉴于拆卸的视频无监视零件宰割

零件宰割的结果展示

每一个零件的图片由解码器得到,最后组装为源图片

同时,在损失函数约束下,我们可以进修到可解释的仿射变更,其中估计的变更与每一个零件运动的方向相一致。

ICML 2021 | 鉴于拆卸的视频无监视零件宰割

仿射变更可解释性的对比

图片分别对应 Motion Co-part 的结果,以及我们的法子在不使用变更损失函数和使用变更损失函数下所训练的模型结果

另外,通过在较大的数据集上训练,我们的模型可以扩展到同类型的新图片上。例如下图所示,我们可将在 Tai-Chi-HD 和 VoxCeleb 等数据集上训练的模型无缝运用到在 Youtube 上找到的同类新视频上。

ICML 2021 | 鉴于拆卸的视频无监视零件宰割

图文 | 高庆哲

Visual Computing and Learning (VCL)

原创文章,作者:北京大学前沿计算研究中心,如若转载,请注明出处:https://www.iaiol.com/news/icml2021-jian-yu-chai-xie-de-shi-pin-wu-jian-shi-ling-jian/

(0)
上一篇 2022年 7月 18日 下午5:02
下一篇 2022年 7月 18日 下午5:04

相关推荐

  • 向英伟达发起挑衅的Groq是什么来头?简单科普新型AI芯片LPU

    这是一篇关于 LPU 的简单科普。在如今的人工智能领域,「GPU is All You Need」已经逐渐成为共识。没有充足的 GPU,连 OpenAI 都不能轻易升级 ChatGPT。不过最近,GPU 的地位也在经受挑衅:一家名为 Groq 的初创公司开发出了一种新的 AI 处置器 ——LPU(Language Processing Unit),其推理速率相较于英伟达 GPU 提高了 10 倍,老本却降低到十分之一。在一项展示中,LPU 以每秒超过 100 个词组的惊人速率执行了开源的大型

    2024年 3月 6日
  • 经济学家看「数据」,何谓数据财产时代?

    「数据是一切的起点,华夏又是数据大国,这使得数据运作在华夏变得非常重要。」在昨日举行的2021BAAI智源大会首日全体大会上,清华大学国家金融研究院院长朱民发表了题为《数据财产时代》的主题演讲,剖析了数据的经济学属性和财产特性,阐释了数据财产化的意义和必要性,解读了数据财产化转型将面临的挑战和应对策略。本文整理了朱民博士演讲的部分内容,并在文末附有相关演讲资料。整理报道 | 齐健数据在今天的社会中无处不在,随着数据范围的扩大,数据利用的加深,人们开始愈发重视数据的经济学特征。数据的虚拟特性,使其可重复利用,且转移成

    2021年 6月 2日
  • FOCS 2021 | 针对Insdel间隔的局部可解码编码的下界

    近日,北京大学前沿计较研讨中心助理教授程宽博士与其合作者的论文“Exponential Lower Bounds for Locally Decodable and Correctable Codes for Insertions and Deletions”发表在理论计较机科学国际顶级会议 FOCS 2021上。这篇文章探讨了编码理论中的一个重要课题,Locally Decodable Code 在 insertion deletion distance 场景下的下界。

    2022年 7月 18日
  • 技术博客丨原来模型训练可以不用标注?一文全解四大机械进修法子

    本文将用通俗的方式,为大家介绍耳熟能详却分辨不清的四个机械进修核心概念:监视式进修、半监视进修、非监视进修和自监视进修,并将用实例简介它们试图解决的问题。

    2022年 1月 11日
  • 此芯科技退出Linaro Windows on Arm工作组,推动Arm全世界生态建设

    近日,通用智能芯片公司此芯科技宣布退出致力于Arm生态系统软件开发的全世界协调工程组织Linaro,成为国内首家退出Windows on Arm工作组的成员。Windows on Arm 工作组旨在为 Windows 建立一个健康的、可持续的 Arm 生态系统。该工作组可为开发人员供应种种工具、编程语言及专业框架支援,助力程序编译速度的提升及Windows on Arm要地开发的兑现。此芯科技专一推动Arm架构设备的智能计较发展。退出Windows on Arm 工作组后,此芯科技将负责Arm原生开发、原生应用支援及

    2022年 7月 27日
  • WEY摩卡预售17.98万元起,激光雷达L3版11月交付

    作为WEY品牌全新定位下的旗舰车型,摩卡在本次上海车展上正式开启预售,包括入门款和4款「准L3主动驾驭」车型,价格区间为17.98万—22.08万元,用户可以通过WEY官方APP进行预订。不过,搭载激光雷达版本车型仍未公布价格,只显示「不高于同类产品定价」,且11月可以交付。据介绍,摩卡全系配备2.0T+9DCT+48V 的MHEV轻混动力体系,并集成了行业首创的E-Creep纯电蠕行技术,让起步响应缩短为仅0.3s。其中,E20N2.0T米勒循环发动机具有轻量化设计和全新优化燃烧体系等核心技术,配合4

    2021年 4月 22日
  • 抖音「神曲」那么多,字节跳动是如何玩转亿级曲库的?

    在今年的音乐科技顶会 ISMIR 2021(International Society for Music Information Retrieval)上,字节跳动海外手艺团队有 7 篇论文入选,涵盖了音乐分类、音乐标签、音源别离、音乐构造综合等多个手艺方向。如今抖音已经成为音乐宣发的一个重要渠道。一支支音乐先在抖音上以短视频 BGM 火起来,再扩散到各大音乐平台上。抖音神曲甚至成了很多音乐平台的一个重要分类。有人说神曲能火是因为歌词和旋律简单,听得多了就印在脑子里。但是对一个有着海量用户、复杂多样内容场

    2021年 8月 12日
  • 初三就能上清华,丘成桐数学科学领军意图首批名单出炉,本月入校接受预科教育

    不需要参加高考,第一批入围「丘成桐数学科学领军意图」的神仙选手们,这个月将直接入读清华大学。

    2021年 4月 7日
  • 1.5K star量,上古老番变4K,B站开源超分辨率算法

    这是 B 站 AI 实验室的最新成果。

    2022年 2月 15日
  • 图神经网络精确预计有机化合物性质,加速静态电池的设计

    编辑/绿萝大规模从头较量争论与布局预计的进步相结合,在有机功能资料的发觉中发挥了重要作用。目前,在有机资料的广阔化学空间中,只发觉了一小部分。实验和较量争论研讨职员都需要加速探索未知的化学空间。来自美国国家可再生能源实验室(NREL)、科罗拉多矿业学院和伊利诺伊大学的研讨职员展示了一种可以精确预计有机化合物性质的机械进修方法。展示了基态(GS)和更高能量布局的平衡训练数据集,对使用通用图神经网络(GNN)架构精确预计总能量的重要性。该研讨可加速静态电池的设计。该研讨以「Predicting energy and stabi

    2021年 12月 24日

发表回复

您的电子邮箱地址不会被公开。 必填项已用 * 标注