TOG 2020 | 基于骨骼一致性的单目视频人体静止重建

本文是对 2020 年 9 月发表于计算机图形学顶级期刊 ACM Transactions on Graphics(ToG)的论文《基于骨骼一致性的单目视频人体静止重建(MotioNet: 3D Human Motion Reconstruction from Monocular Video with Skeleton Consistency)》的解读。
该论文由北京大学与山东大学、北京电影学院、以色列特拉维夫与耶路撒冷大学合作,针对从单目视频中提取人体静止的问题,区别于直接回归枢纽坐标的法子,作者在神经搜集中利用正向静止学,猜测出时序一致的人体骨架及所对应的枢纽扭转,减小了搜集猜测的空间搜索范围,搜集输出的结果也能直接运用于角色动画的驱动。

论文链接:https://arxiv.org/abs/2006.12075

项目主页:https://rubbly.cn/publications/motioNet

01 背景介绍

人体静止是现实世界中最常见的视觉内容之一,随着图像视频获取设备的大规模普及,对理解人类行为这一机器视觉任务的智能化解决变得日益重要。然而真正场景下的人体静止重建一直是一个具有挑战性的问题,人体高自由度的枢纽所构成的姿势难以用简单的模板进行匹配,真正场景下的复杂光照、背景也增大了这个问题的难度。

随着深度学习的发展,大量的研究工作致力于从视频序列中,通过有监督的法子猜测人体三维枢纽坐标来表示人体静止[2]。在失掉二维关键点或者图形深层特征后,通过在猜测的坐标地位和真正坐标地位之间计算损失函数,将这个问题转变为回归问题。

然而,在猜测过程中人体结构并未完全考虑。搜集差别的枢纽点的猜测结果来源于独立的维度,每一个枢纽点的猜测都会在全部空间中进行搜索,没有相互之间的约束;在同一个视频的猜测中,前后帧猜测的骨架也会形成不一致,这不仅导致了不平滑的结果,近大远小的投影规则也导致了在深度猜测上的二义性。

TOG 2020 | 基于骨骼一致性的单目视频人体静止重建

图1. 同一段猜测在差别时刻的骨架相对大小 [Pavllo et al., CVPR 2019]

同时,如果想在角色动画中使用这样的数据时,首先需要利用反向静止学(Inverse Kinematics)将枢纽坐标点转换为对应的扭转。然而,枢纽地位只能描述在特定坐标维度上的信息,无法描述自身的扭转,因此这样不完整的静止信息很难直接静止于角色动画的驱动。

TOG 2020 | 基于骨骼一致性的单目视频人体静止重建

图2. 枢纽坐标地位表示法子中的二义性:同样的枢纽坐标可以代表差别的扭转

为了解决这些问题,本文设计了一种使用骨骼地位+动态枢纽扭转的办法表示人体举措的双通路搜集结构,提供了以扭转为主要表达办法的人体静止重建解决方案,同时利用脚步交战信号等办法,提高了结果的可视效果。

02 法子简介

法子的核心为正向静止学,给定父枢纽初始地位,通过应用差别的变换办法失掉子枢纽地位。人体的任何一个举措,都有正向静止学的参与。该过程的基本数据结构为扭转,通过差别枢纽之间的扭转组合,可以实现差别的人体姿势。本文通过神经搜集的办法,实现了正向静止学的过程。

TOG 2020 | 基于骨骼一致性的单目视频人体静止重建

图3. 将扭转运用到T-pose上的正向静止学过程

搜集由双分支的编码器组成,其中,第一个分支负责猜测枢纽扭转、地面交战信号、全部坐标等信息,而另一个分支负责猜测以骨骼长度为基本元素组合而成的初始姿势(T-pose),然后枢纽扭转与 T-pose 输出到正向静止学(FK)层,失掉组合而成的三维举措序列。

TOG 2020 | 基于骨骼一致性的单目视频人体静止重建

图4. 搜集结构示意图

对于 T 帧的输出,第一个分支会形成 T 帧的输出,而第二个分支会通过池化的办法进行信息的压缩,只形成 1 帧输出,作为时序统一的骨架信息。在我们的解决方案中,将猜测出的骨骼长度应用到固定的骨骼拓扑结构上,形成 T-pose。然后第一个分支所形成的每一帧的扭转,通过 FK 应用到时序统一的 T-pose 上,便失掉了这个骨架在差别帧下的人体姿势。猜测的序列通过与真正三维举措进行坐标上的误差比对,进行搜集的收敛。

搜集的输出是由其他法子形成的二维静止序列,在训练过程中,本文使用数据集中的真正三维静止数据,然后通过投影的办法失掉所对应的二维数据。但为了适应在真正视频中因为快速静止、遮挡等因素所形成的噪音,本文在训练数据中模拟噪音的分布,将代表枢纽猜测置信度作为搜集输出的另一个维度。

为了提高生成效果的质量,除了最后枢纽坐标的损失函数,本文还使用了以下法子提高结果的质量:

脚步交战信号

正向静止学中骨骼链的存在,使得父枢纽所形成的猜测误差会不断在末端枢纽中累积,导致了脚步滑动、末端枢纽抖动的问题。因此在训练过程中,我们同时猜测脚步与地面的交战信号,当脚枢纽交战地面时,其枢纽静止应该相对稳定,因此猜测失掉的枢纽角速度应该接近0。

生成结果的对抗训练

本文使用扭转作为静止的表达形式,因此可以很灵活的在扭转上应用各种操纵器,满足角色动画的要求。例如本文所使用了对抗学习的法子,使得猜测出的枢纽扭转的相对变化,尽可能接近真正的扭转。在做抬手的举措时,判别器会倾向于手部不应该出现奇怪的自扭转,从而让搜集输出这样认为是“真正”的结果。

03 结果展示

在差别视频上展示的结果可以看出,本文所提出的法子具有能够从复杂背景、静止中提取出合理的三维静止的能力。

TOG 2020 | 基于骨骼一致性的单目视频人体静止重建

图5. 差别视频下的搜集输出

与其他法子进行了定性比较可以发现,其他算法在枢纽地位的正确性、扭转的合理性上都存在较大的问题。尤其是在快速静止或存在遮挡的情况下,这些法子往往会出现错误的猜测。

TOG 2020 | 基于骨骼一致性的单目视频人体静止重建

图6. 对比结果, Kanazawa [2018], Pavllo [2019], Mehta [2017]

同时,由于猜测的骨架在视频前后的一致性,本文形成的结果不会在深度上形成二义性,因此相比起其他法子,本文能失掉更精准的全部坐标。

TOG 2020 | 基于骨骼一致性的单目视频人体静止重建

图7. 全部地位猜测对比结果

参考文献

[1] Zhe Cao, Gines Hidalgo, Tomas Simon, Shih-En Wei, and Yaser Sheikh. 2018. OpenPose: realtime multi-person 2D pose estimation using Part Affinity Fields. arXiv preprint arXiv:1812.08008 (2018).

[2] Pavllo, D., Feichtenhofer, C., Grangier, D., & Auli, M. (2019). 3d human pose estimation in video with temporal convolutions and semi-supervised training. In Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition (pp. 7753-7762).

图文 | 史明镒

Visual Computing and Learning (VCL)

原创文章,作者:北京大学前沿计算研究中心,如若转载,请注明出处:https://www.iaiol.com/news/tog2020-ji-yu-gu-ge-yi-zhi-xing-de-dan-mu-shi-pin-ren-ti/

(0)
上一篇 2022年 7月 18日 下午3:45
下一篇 2022年 7月 18日 下午5:03

相关推荐

  • 295页博士论文探索加强进修形象表面,获AAAI/ACM SIGAI博士论文奖提名

    除了论文本身超有技术含量之外,文中使用的图表也非常美观漂亮。

    2022年 3月 20日
  • 小鹏P5上海车展正式开启预订,载人飞行器同台亮相

    2021年4月19日,小鹏汽车携旗下第三款产品,全球首款搭载激光雷达的量产智能汽车——小鹏P5亮相2021上海车展,并举办以“天生智能 探究不止”为主题的新闻发布会。小鹏汽车董事长 CEO何小鹏与所有到场嘉宾一起分享如何让智能汽车更好地改变我们的出行生活,并宣布小鹏P5正式开启预订。2021上海车展小鹏汽车展台汽车董事长 CEO何小鹏在发布会现场,何小鹏表示:“我们始终在探究未来智能出行的可能性,无论是小鹏P5,还是旅航者X1,都是我们阶段性思考出来的产品

    2021年 4月 22日
  • 教授何恺明在MIT的第一堂课

    700 座的大教室,相比去年增加一倍容量,仍然座无虚席:这就是麻省理工学院(MIT)计算机视觉课《Advances in Computer Vision》6.8300 在 2024 新学期的盛况。今年是四位教授,每人负责一部分课程:课程信息:https://advances-in-vision.github.io/index.html有网友评论说,能选上这课的学生太幸运了,每节都是计算机视觉顶会 CVPR Oral 的体验。对于很多人来说,其中最为期待的自然是新晋教授何恺明的课。MIT 电气工程与计算机科学系副教授

    2024年 3月 11日
  • 10位大咖云聚,400分钟干货分享,这里有一场AI 家产发展趋向分享会等你来看!

    从 2015 年的 Alpha Go 人机大战,人工智能热潮如平地惊雷,光芒尽显。到 2020 年的突发疫情,倒逼家产智能突围,带来数字时代转型升级的加速发展。风起于青萍之末,浪成于微澜之间,从 2015 年到 2020 年,AI 家产趋向变化的草蛇灰线逐渐显现。在不平凡的 2020 年,意外和契机相伴而至,稳健与突破竞相呈现。站在 2020 的尾巴上,伴随着对过去的梳理和对未知的期待,我们需要重振激情,用全方位的知识储备把握未来 AI 家产趋向的走向和发展。新春将至,在即将到来的牛年里,作为一个 AI 人下面一年

    2021年 1月 29日
  • 开课啦!李宏毅2021《呆板进修》华文课程全面上新,纯线上,还不快跟?

    「宝可梦巨匠」李宏毅又开课了,小板凳搬好了吗?在呆板进修教育领域,台湾大学电机工程系助理教授李宏毅以鲜明的个人风格独树一帜。在课堂上,他经常用增强现实游戏「宝可梦 Go」举例,不仅语言滑稽滑稽,PPT 的可视化也做得非常用心。最重要的是,他的授课语言是华文(标准台湾普通话)。因此,不少人将其推荐为初学呆板进修的首选课程。李宏毅先生往期课程截图。2、3 月份是新学期的开始,李宏毅先生也宣布了他的《呆板进修》课程上新的消息。新课程从 2 月 26 日正式开始,6 月中旬正式结束,视频、PPT 都会上传到课程主页上。课程

    2021年 3月 6日
  • CVPR 2022 | 图象也是德布罗意波!华为诺亚&北大提出量子启发MLP,机能超越Swin Transfomer

    来自华为诺亚方舟实验室、北京大学、悉尼大学的研究者提出了一种受量子力学启发的视觉 MLP 新架构。

    2022年 3月 16日
  • 带你读论文 | 端到端语音辨别模型

    编者按:过去十年,得益于人工智能与机器学习的突破、算法与硬/软件能力的进步,以及拥有既多样又大量的语音数据库,用以训练多参数的、大规模的语音辨别与合成模型,使得语音处理技术获得飞跃性进展。

    2020年 11月 18日
  • 超越全系列YOLO、Anchor-free+技巧组合,旷视开源本能更强的YOLOX

    在本文中,来自旷视的研究者提出高本能检测器 YOLOX,并对 YOLO 系列进行了经验性改进,将 Anchor-free、数据加强等方针检测领域先进技术引入 YOLO。获得了超越 YOLOv3、YOLOv4 和 YOLOv5 的 AP,而且取得了极具竞争力的推理速率。随着方针检测技术的发展,YOLO 系列始终追寻可以实时应用的最佳速率和准确率权衡。学界人士不断提取当时最先进的检测技术(如 YOLOv2 的 anchor、YOLOv3 的残差网络),并对这些检测技术进行优化以兑现最佳本能。目前,YOLOv5 在速率和

    2021年 7月 22日
  • 威斯康辛大学《呆板进修导论》2020秋季课程完结,课件、视频资源已开放

    对于呆板进修领域的初学者来说,这会是很好的入门课程。目前,课程的笔记、PPT 和视频正在陆续发布中。2020 年就这么悄无声息地走完了,想必大多数人,尤其是在校学生唯一的感觉就是:「又是毫无学术进展的一年。」别慌,只要马上开始进修,什么时候都不算晚。近日,威斯康辛大学麦迪逊分校助理教授 Sebastian Raschka 在推特上宣布了威斯康辛大学《呆板进修导论》2020 秋季课程的完结:「教授两个班级和 230 个学生是相当不错的体验,对于那些感兴趣的人,我整理了一页记录以供参考。」课程笔记主页:https://

    2020年 12月 23日
  • 如何更迷信地研讨AI+迷信?顶级学者将云集这次ICML研讨会

    ICML将举行一个AI+迷信的研讨会,由来自全球顶尖机构的研讨职员举行,集结了AI+各迷信畛域的领跑者。

    2022年 3月 30日

发表回复

您的电子邮箱地址不会被公开。 必填项已用 * 标注