ICML 2021 | 鉴于拆卸的视频无监视零件宰割

本文是第三十八届国际机器进修会议(ICML 2021)入选论文《鉴于拆卸的视频无监视零件宰割(Unsupervised Co-part Segmentation through Assembly)》的解读。
该论文由北京大学陈宝权-刘利斌研究团队与山东大学、北京电影学院未来影像高精尖创新中心合作,提出了一种无监视的图像零件宰割法子,创新性地采用了将零件宰割历程和零件拆卸历程相结合的自监视进修思路,利用视频中的运动信息来提取潜在的零件特性,从而实行对物体零件的有意义的宰割。

论文链接:https://arxiv.org/abs/2106.05897

代码地址:https://github.com/Talegqz/unsupervised_co_part_segmentation

ICML 2021 | 鉴于拆卸的视频无监视零件宰割

01 引  言

ICML 2021 | 鉴于拆卸的视频无监视零件宰割

零件宰割 (co-part segmentation) 是计算机视觉领域中的一个重要问题。它通过识别图片中宗旨对象的组成零件 (part) ,并将属于每一个零件的像素聚类到一起,可以为有铰链结构的物体提供较为紧凑且有意义的零件结构 (part-structure) 表示。它可以运用于运动追踪、动作识别、机器人操纵以及自动驾驶等具体任务,因而具有重要的研究价值。

随着深度进修的发展以及大量的标注数据集的出现,鉴于监视的进修法子已经在包括零件宰割在内的很多视觉问题上超越了传统的法子。但这类进修法子往往需要大量的先验知识,并且高度依赖高质量数据集标注,较难运用到未曾见过的物体上。

在本项研究中,我们提出了一种无监视的图像零件宰割法子,创新性地采用了将零件宰割历程和零件拆卸历程相结合的自监视进修思路,利用视频中的运动信息来提取潜在的零件特性,从而实行对物体零件的有意义的宰割。我们通过在人体、人手、四足动物、机械臂等不同研究对象的视频上的测试,证明了这一无监视图像零件宰割法子有效性。同时,定量实验的对比也表明该法子的效果优于现有的鉴于无监视进修的工作,达到了较高的水平。

02 方  法

我们的法子鉴于一个假设,即视频中的运动物体是由不变的零件组成,视频中帧与帧的区别只是零件的不同位置和缩放之间的区别,通过零件之间的仿射变更,我们可以将视频中的一帧转换为另一帧。鉴于这一假设,我们利用神经网络分析两张图片之间的转换,自动将图片宰割为不同的零件并进修其对应的变更方式,进而根据另一张图片的信息重新组装这些零件,从而实行无监视的零件宰割。

对于单张图片来说,零件的宰割拆卸历程如下图所示。首先,我们利用编码器把输入图片编码为零件特性和零件变更。然后,其中的零件特性将通过解码器生成相应的零件图片和零件蒙版。最后,这些零件图片将根据对应的零件蒙版被组装成最终的图片。

ICML 2021 | 鉴于拆卸的视频无监视零件宰割

零件宰割拆卸的结构

而在训练时,我们每次随机从视频中选择两帧作为源图片和宗旨图片。我们假定视频中零件都存在一个标准的特性表示,而每一个零件的变更是相对于标准特性的变更。在此基础上,我们可以通过逆变更将源图片的零件特性变更到标准特性,然后再利用宗旨图片的变更得到新的变更特性,通过这个新的特性可以生成预测的宗旨图片。

ICML 2021 | 鉴于拆卸的视频无监视零件宰割

鉴于零件宰割拆卸的训练历程

在训练历程中,我们要求神经网络能够尽可能地重构宗旨图片。由于上述组装历程的约束,只有更准确的宰割才能实行更好的生成结果。因而通过这种方式,我们实行了对图片宰割的自监视进修。而进一步地,我们限定变更为只包括旋转、缩放、平移的仿射变更,并且假定在标准特性空间中每一个零件的中心在原点位置,同时协方差矩阵为单位矩阵。在训练中我们要求在经过变更后,零件的中心应该与变更的平移部分一致,而零件的协方差矩阵与旋转缩放矩阵一致。鉴于这个约束,我们可以使网络学到的零件宰割和变更有更明确的物理意义,增加了结果的可解释性。

03 实验结果

我们的法子不需要任何标注,可以直接运用于人体、手、四足动物和机械臂等对象。

ICML 2021 | 鉴于拆卸的视频无监视零件宰割

人手、马、人体以及机械臂的宰割结果

而与其他现有的无监视法子相比,我们的法子实行了更加一致且紧凑的宰割,并在宰割一致性和前景准确性的定量实验上超过了现有的法子。

ICML 2021 | 鉴于拆卸的视频无监视零件宰割ICML 2021 | 鉴于拆卸的视频无监视零件宰割

在 VoxCeleb 和 Tai-Chi-HD 数据集上与其他法子的对比结果

如下图所示,我们的网络可以进修到每一个零件的宰割,并可以将零件重新组合为输入图片。

ICML 2021 | 鉴于拆卸的视频无监视零件宰割

零件宰割的结果展示

每一个零件的图片由解码器得到,最后组装为源图片

同时,在损失函数约束下,我们可以进修到可解释的仿射变更,其中估计的变更与每一个零件运动的方向相一致。

ICML 2021 | 鉴于拆卸的视频无监视零件宰割

仿射变更可解释性的对比

图片分别对应 Motion Co-part 的结果,以及我们的法子在不使用变更损失函数和使用变更损失函数下所训练的模型结果

另外,通过在较大的数据集上训练,我们的模型可以扩展到同类型的新图片上。例如下图所示,我们可将在 Tai-Chi-HD 和 VoxCeleb 等数据集上训练的模型无缝运用到在 Youtube 上找到的同类新视频上。

ICML 2021 | 鉴于拆卸的视频无监视零件宰割

图文 | 高庆哲

Visual Computing and Learning (VCL)

原创文章,作者:北京大学前沿计算研究中心,如若转载,请注明出处:https://www.iaiol.com/news/icml2021-jian-yu-chai-xie-de-shi-pin-wu-jian-shi-ling-jian/

(0)
上一篇 2022年 7月 18日 下午5:02
下一篇 2022年 7月 18日 下午5:04

相关推荐

  • “朋友圈”阵容豪华,华海清科IPO如何撑起百元发行价?

    CMP装备国产替代之路,道阻且长。撰文 | shanshan继纳芯微230元高价发行之后,半导体行业今年迎来了第二只百元高价新股。5月25日,华海清科公告,此次科创板上市发行价136.66元/股,对应发行市盈率127.9倍。华海清科最早成立于2013年,是一家高端半导体装备制造商,属于专用装备制造业。主营业务为半导体专用装备的研发、生产、销售及技术服务,次要产品为化学机械抛光(CMP)装备。作为目前国内唯一能够为集成电路制造商提供12英寸CMP商业机型的高端半导体装备制造商,华海清科也受到了二级市场上投资者的追捧。

    2022年 6月 10日
  • google请印度标注员给Reddit批评数据集打标签,毛病率高达30%?

    去年,google发布了 GoEmotions 数据集,该数据集包含 58K 野生标注的 Reddit 批评,其中涉及 27 种思绪。

    2022年 7月 19日
  • “中关村智用人工智能同伴设计”报名已开放,八大效劳助力AI落地

    中关村智用人工智能同伴设计”(简称设计)报名已于2021年3月1日正式开放(报名链接:http://aizgc.org.cn/#/zhiyong/friend),并得到了人工智能财产各界的关注。某AI企业结合创始人李先生谈起同伴设计来满脸兴奋,据他介绍:同伴设计给他的创业带来了新的曙光,此前他的公司虽然拥有先进的手艺,但在寻找落地场景的道路上却一直坎坷,人脸识别等常识性使用场景已经是一片红海,想寻找手艺落地的蓝海场景,却又因为团队成员大都是信息手艺出身,对其他行业了解不多,既不知道哪些行业可能是潜在用户,即使知道,

    2021年 3月 29日
  • 专栏 | 蒙特卡洛树搜寻在黑盒优化和神经收集结构搜寻中的应用

    布朗大学在读博士王林楠在本文中介绍了他与 Facebook 田渊栋团队合作,在 2020 年 NeurIPS 取得亮眼表现的新算法,以及其在神经收集结构搜寻中的应用。

    2021年 1月 6日
  • 再不用怕Markdown中的绘图了,GitHub官方支持Mermaid图表绘制东西

    开发人员已能够在 GitHub 中使用 Mermaid 图表东西。

    2022年 2月 15日
  • CVPR 2021 Oral | 室内动向场景中的相机重定位

    本文是对发表于计算机视觉和模式识别领域的顶级会议 CVPR 2021的 Oral 论文 “Robust Neural Routing Through Space Partitions for Camera Relocalization in Dynamic Indoor Environments”(通过在空间区分中鲁棒的神经路由实现室内动向场景的相机重定位)的解读。
    该论文由北京大学陈宝权研究团队与山东大学、北京电影学院、斯坦福大学和 Google Research 合作,针对室内动向变化场景的相机重定位问题,提出在场景空间区分中进行路由的思想,记忆场景固态信息的同时感知场景动向信息,从而实现鲁棒的相机位姿预测。
    试验证明,该法子显著提升了动向变化场景中的相机重定位效果。

    2022年 7月 18日
  • 参数量仅为4%,性能媲美GPT-3:开发者图解DeepMind的RETRO

    构建越来越大的模型并不是提高性能的唯一方法。

    2022年 1月 4日
  • 千寻地位冯绍军:时空网为聪慧出行注入新动能

    6月26日,2021环球聪慧出行大会主论坛暨中国汽车产业低碳发展高层论坛在南京召开。千寻地位首席科学家冯绍军出席主论坛并发表讲演——《时空网为聪慧出行注入新动能》。冯绍军认为,时空网一方面为以“人、车、路、城”四个维度为代表的聪慧出行直接注入新动能,激发新技巧融合的聚变和新运用生态的裂变;另一方面为铁路、公路、机场、港口、管道、电网、水利、市政等乡村里的各类基础设施提供时空智能,兑现传统基础设施与新一代信息基础设施的融合创新发展,为聪慧出行间接赋能。(图为千寻地位首席

    2021年 6月 28日
  • 归一化提高预训练、缓解梯度不匹配,Facebook的模型超越GPT-3

    来自 Facebook AI 的研究者提出了 NormFormer,该模型能够更快地达到目标预训练的蛊惑度,更好地实现预训练蛊惑度和下游义务功能。

    2021年 10月 27日
  • Hologres揭秘:深度解析高效率分布式查问引擎

    Hologres(中文名交互式分析)是阿里云自研的一站式及时数仓,这个云原生体系融合了及时服务和分析大数据的场景,全面兼容PostgreSQL协议并与大数据生态无缝打通,能用同一套数据架构同时支持及时写入及时查问以及及时离线联邦分析。它的出现简化了业务的架构,与此同时为业务提供及时决策的能力,让大数据发挥出更大的商业价值。Hologres作为HSAP服务分析一体化的落地最佳实践,其查问引擎是一个完全自研的施行引擎,它的核心设计目标是支持所有类型的分布式分析和服务查问,并做到极致查问机能。为了做到这一点,我们借鉴了各

    2021年 8月 11日

发表回复

您的电子邮箱地址不会被公开。 必填项已用 * 标注