TOG 2020 | 基于骨骼一致性的单目视频人体活动重建

本文是对 2020 年 9 月发表于计算机图形学顶级期刊 ACM Transactions on Graphics(ToG)的论文《基于骨骼一致性的单目视频人体活动重建(MotioNet: 3D Human Motion Reconstruction from Monocular Video with Skeleton Consistency)》的解读。 该论文由北京大学与山东大学、北京电影学院、以色列特拉维夫与耶路撒冷大学合作,针对从单目视频中提取人体活动的问题,区别于直接回归枢纽坐标的要领,作者在神经搜集中利用正向活动学,展望出时序一致的人体骨架及所对应的枢纽转动,减小了搜集展望的空间搜索范围,搜集输出的结果也能直接运用于角色动画的驱动。

论文链接:https://arxiv.org/abs/2006.12075

项目主页:https://rubbly.cn/publications/motioNet

01 背景介绍

人体活动是现实世界中最常见的视觉内容之一,随着图像视频获取设备的大规模普及,对理解人类行为这一机器视觉任务的智能化解决变得日益重要。然而真正场景下的人体活动重建一直是一个具有挑战性的问题,人体高自由度的枢纽所构成的姿势难以用简单的模板进行匹配,真正场景下的复杂光照、背景也增大了这个问题的难度。

随着深度学习的发展,大量的研究工作致力于从视频序列中,通过有监督的要领展望人体三维枢纽坐标来表示人体活动[2]。在获得二维关键点或者图形深层特征后,通过在展望的坐标地位和真正坐标地位之间计算损失函数,将这个问题转变为回归问题。

然而,在展望过程中人体结构并未完全考虑。搜集分歧的枢纽点的展望结果来源于独立的维度,每一个枢纽点的展望都会在全部空间中进行搜索,没有相互之间的约束;在同一个视频的展望中,前后帧展望的骨架也会形成不一致,这不仅导致了不平滑的结果,近大远小的投影规则也导致了在深度展望上的二义性。

TOG 2020 | 基于骨骼一致性的单目视频人体活动重建

图1. 同一段展望在分歧时刻的骨架相对大小 [Pavllo et al., CVPR 2019]

同时,如果想在角色动画中使用这样的数据时,首先需要利用反向活动学(Inverse Kinematics)将枢纽坐标点转换为对应的转动。然而,枢纽地位只能描述在特定坐标维度上的信息,无法描述自身的转动,因此这样不完整的活动信息很难直接活动于角色动画的驱动。

TOG 2020 | 基于骨骼一致性的单目视频人体活动重建

图2. 枢纽坐标地位表示要领中的二义性:同样的枢纽坐标可以代表分歧的转动

为了解决这些问题,本文设计了一种使用骨骼地位+动态枢纽转动的办法表示人体举措的双通路搜集结构,提供了以转动为主要表达办法的人体活动重建解决方案,同时利用脚步打仗信号等办法,提高了结果的可视效果。

02 要领简介

要领的核心为正向活动学,给定父枢纽初始地位,通过应用分歧的变换办法获得子枢纽地位。人体的任何一个举措,都有正向活动学的参与。该过程的基本数据结构为转动,通过分歧枢纽之间的转动组合,可以实现分歧的人体姿势。本文通过神经搜集的办法,实现了正向活动学的过程。

TOG 2020 | 基于骨骼一致性的单目视频人体活动重建

图3. 将转动运用到T-pose上的正向活动学过程

搜集由双分支的编码器组成,其中,第一个分支负责展望枢纽转动、地面打仗信号、全部坐标等信息,而另一个分支负责展望以骨骼长度为基本元素组合而成的初始姿势(T-pose),然后枢纽转动与 T-pose 输出到正向活动学(FK)层,获得组合而成的三维举措序列。

TOG 2020 | 基于骨骼一致性的单目视频人体活动重建

图4. 搜集结构示意图

对于 T 帧的输出,第一个分支会形成 T 帧的输出,而第二个分支会通过池化的办法进行信息的压缩,只形成 1 帧输出,作为时序统一的骨架信息。在我们的解决方案中,将展望出的骨骼长度应用到固定的骨骼拓扑结构上,形成 T-pose。然后第一个分支所形成的每一帧的转动,通过 FK 应用到时序统一的 T-pose 上,便获得了这个骨架在分歧帧下的人体姿势。展望的序列通过与真正三维举措进行坐标上的误差比对,进行搜集的收敛。

搜集的输出是由其他要领形成的二维活动序列,在训练过程中,本文使用数据集中的真正三维活动数据,然后通过投影的办法获得所对应的二维数据。但为了适应在真正视频中因为快速活动、遮挡等因素所形成的噪音,本文在训练数据中模拟噪音的分布,将代表枢纽展望置信度作为搜集输出的另一个维度。

为了提高生成效果的质量,除了最后枢纽坐标的损失函数,本文还使用了以下要领提高结果的质量:

脚步打仗信号

正向活动学中骨骼链的存在,使得父枢纽所形成的展望误差会不断在末端枢纽中累积,导致了脚步滑动、末端枢纽抖动的问题。因此在训练过程中,我们同时展望脚步与地面的打仗信号,当脚枢纽打仗地面时,其枢纽活动应该相对稳定,因此展望获得的枢纽角速度应该接近0。

生成结果的对抗训练

本文使用转举措为活动的表达形式,因此可以很灵活的在转动上应用各种操纵器,满足角色动画的要求。例如本文所使用了对抗学习的要领,使得展望出的枢纽转动的相对变化,尽可能接近真正的转动。在做抬手的举措时,判别器会倾向于手部不应该出现奇怪的自转动,从而让搜集输出这样认为是“真正”的结果。

03 结果展示

在分歧视频上展示的结果可以看出,本文所提出的要领具有能够从复杂背景、活动中提取出合理的三维活动的能力。

TOG 2020 | 基于骨骼一致性的单目视频人体活动重建

图5. 分歧视频下的搜集输出

与其他要领进行了定性比较可以发现,其他算法在枢纽地位的正确性、转动的合理性上都存在较大的问题。尤其是在快速活动或存在遮挡的情况下,这些要领往往会出现错误的展望。

TOG 2020 | 基于骨骼一致性的单目视频人体活动重建

图6. 对比结果, Kanazawa [2018], Pavllo [2019], Mehta [2017]

同时,由于展望的骨架在视频前后的一致性,本文形成的结果不会在深度上形成二义性,因此相比起其他要领,本文能获得更精准的全部坐标。

TOG 2020 | 基于骨骼一致性的单目视频人体活动重建

图7. 全部地位展望对比结果

参考文献

[1] Zhe Cao, Gines Hidalgo, Tomas Simon, Shih-En Wei, and Yaser Sheikh. 2018. OpenPose: realtime multi-person 2D pose estimation using Part Affinity Fields. arXiv preprint arXiv:1812.08008 (2018).

[2] Pavllo, D., Feichtenhofer, C., Grangier, D., & Auli, M. (2019). 3d human pose estimation in video with temporal convolutions and semi-supervised training. In Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition (pp. 7753-7762).

图文 | 史明镒

Visual Computing and Learning (VCL)

给TA打赏
共{{data.count}}人
人已打赏
AI

Creator 面对面 | 面向一致的 AI 模型架构和进修格式

2022-7-18 15:45:00

AI

CVPR 2021 Oral | 室内动向场景中的相机重定位

2022-7-18 17:03:00

0 条回复 A文章作者 M管理员
    暂无讨论,说说你的看法吧
个人中心
今日签到
搜索