近日,Meta Connect 大会上「有腿」的假造世界人物形象引起机器学习和VR社区的高度关注。人们意识到,在构建元宇宙的美好愿景中,假造形象的生动逼真是非常重要的。
Meta Connect 大会上扎克伯格展示了自己的假造形象。
以前,假造人物形象通常只有上半身,这严重破坏了用户的沉浸感,降低了整体的应用体验。
为了解决这个问题,来自苏黎世联邦理工学院 (ETH Zurich) 和 Meta 假造现实实验室 (Reality Labs at Meta) 的学者联手提出了 AvatarPoser,一个用稀疏活动传感设备进行满身位姿计算与追踪的方案。该工作被计算机视觉顶会 ECCV 2022 接收,论文和代码均已开源。
论文链接:https://arxiv.org/abs/2207.13784
代码链接:https://github.com/eth-siplab/AvatarPoser
研究背景
当前的混合现实头戴式显示器和手持控制器可以追踪用户在现实世界中的头部和手的地位和姿态,以便用户在增强现实和假造现实场景中进行交互。虽然这足以支持用户提供输出信息,但是通常只将用户的假造形象局限于上半身。因此,当前 VR 系统只能提供浮动的假造形象,其局限性在协作环境中尤为明显。为了应用稀疏输出源计算满身姿态,先前的工作在腰或腿脚地位加入了额外的追踪器和传感器,但这增加了设备的复杂性并限制了实际应用的便携性。
AvatarPoser 是第一个鉴于深度学习来通过用户头部和手部的活动输出来预测世界坐标中的满身姿态的办法。该研究用 Transformer 编码器从输出信号中提取深度特征,并将人体的全部活动与局部环节活动解耦,以引导整体的姿态计算。此外,作家还将 Transformer 和逆活动学结合,来优化手臂环节的地位,以匹配手的真实地位。在作家的实验评价中,AvatarPoser 在大型动作捕捉数据集 AMASS 的评价中取得了最佳结果。该办法的极快的推理速度也支持实时操作,提供了一个实用的接口来支持元界应用的整体的假造人表示和控制。
相关工作
文章和此前的相关工作 Final IK, LoBSTr (Eurographics 2021), CoolMoves (IMWUT 2021), VAE-HMD (ICCV 2021)进行了比较。Final IK 是鉴于物理模型的标准商业解决方案。然而,它只能给出中性的下半身地位,因此产生了看起来不真实的活动预测。LoBSTr 应用 GRU 模型根据头部、手部和腰部的跟踪信号预测下半身,并通过 IK 求解器计算上半身姿态。
但是,这种办法需要额外的腰部跟踪器。CoolMoves 是第一个只应用来自头戴式设备和手控制器的输出来计算满身姿态的办法。然而,所提出的鉴于 KNN 的办法只能在小数据中插值计算姿态,且需要活动类型已知。VAE-HMD 是最近提出的一种鉴于 VAE 的办法,可以从稀疏输出中生成合理且多样化的身体姿态。然而,该办法所应用的信息都是相对于与腰部地位的,这相当于应用了腰部的地位作为第四个输出。因此,用稀疏传感设备追踪假造人满身的办法主要存在三个局限性:
(1) 大多数通用商用程序应用逆向活动学(IK)来计算满身姿态。这通常会产生看似静态且不自然的人体活动,尤其是对于远离活动链中已知环节地位的那些环节。
(2) 尽管目标是仅应用来自头部和手部的输出,但现有的鉴于深度学习的办法隐含地应用了腰部姿态的信息。然而,大多数便携式混合现实系统无法进行腰部跟踪,这增加了满身计算的难度。
(3) 即使应用腰部追踪设备,先前办法计算的下半身动画也会经常包含抖动和滑动伪影。这些往往是由腰部跟踪器的无意活动引起的,该跟踪器连接在腹部,因此与实际腰部环节的移动方式不同。
办法介绍
AvatarPoser 的整体框架如图 2 所示。这是一个时间序列的网络结构,它将来自稀疏跟踪器的前 N – 1 帧和当前第 N 帧的 6D 信号作为输出,并预测人体的全部方向以及每个环节相对于其父节点的局部相对扭转。具体来说,AvatarPoser 由四个组件组成:Transformer 编码器、稳定器、正向活动学 (FK) 模块和逆向活动学 (IK) 模块。作家设计的网络使得每个组件都可以解决特定的任务。
Transformer 编码器: 由于 Transformer 在效率、可扩展性和长距离建模能力方面具有优势,本文的办法建立在其基础上,从时间序列数据中提取有用的信息,用自注意力 (self-attention) 机制来清楚地捕获数据中的全部远程依赖关系。具体来说,给定输出信号,首先应用线性嵌入将特征丰富到 256 维。接下来,Transformer 编码器从头显和手部的先前时间步长中提取深度姿态特征,这些特征分别由用于全部活动预测的稳定器和用于局部姿态计算的 2 层多层感知器 (MLP) 共享。Transformer 中的 head 的数量设置为 8,自注意力层的数量设置为 3。
稳定器 Stabilizer: 稳定器是一个 2 层多层感知机,它接受来自 Transformer 编码器生成的 256 维姿态特征作为输出,负责输出人体的全部活动方向(也是腰部的扭转方向)。因此,稳定器通过将全部方向与姿态特征解耦并通过身体活动链从头部地位获得全部平移来负责全部活动导航。尽管通过活动链从给定的头部姿态计算全部方向也是一种只管的解决方案,但用户的头部扭转通常独立于其他环节的活动, 因此这种办法会导致计算的整体方向对头部的扭转很敏感。比如考虑一下用户站着不动,只转动头部的场景,全部方向很可能会有很大的偏差,这往往会导致生成的假造人浮动在空中,如图 3 的左边图所示。
正向活动学 (FK) 模块:正向活动学 (FK) 模块将预测的局部扭转作为输出,计算给定人体骨骼模型的所有环节地位。虽然鉴于扭转的办法无需重新投影到骨架约束以避免骨骼拉伸和无效配置即可提供稳健的结果,但它们容易沿着活动链累积地位偏差。在没有 FK 模块的情况下训练网络只能最小化环节扭转角度,但不会在优化过程中考虑实际产生的环节地位。
逆向活动学模块:鉴于扭转的姿态计算的一个主要问题是末端执行器的预测可能会偏离它们的实际地位——即使末端执行器用作已知输出,例如 VR 场景中的手。这是因为对于末端执行器,偏差会沿着活动链累积。然而,准确计算末端执行器的地位在混合现实中尤为重要,因为手通常用于提供用户的输出信息,即使是地位上的小偏差也会严重干扰与假造界面元素的交互。为了解决这个问题,本文采用了一个单独的 IK 模块,该算法根据已知的手部地位调整手臂肢体地位。具体来说,在网络产生输出后,IK 模块会调整肩部和肘部环节的计算扭转角度,以减少手部地位的偏差,如图 3 的右图所示。
实验
作家评价了三个和四个输出的不同办法。评价指标是平均每个环节扭转偏差 (MPJRE)、地位偏差(MPJPE) 和速度偏差(MPJVE)。实验表明,AvatarPoser 在两种设置中都实现了 SOTA 的性能。
表 1 报告了四个和三个输出的所考虑指标(MPJRE、MPJPE 和 MPJVE)的数值结果。可以看出,AvatarPoser 在所有三个指标上都取得了最佳结果,并且显著优于所有其他办法, VAE-HMD 在 MPJPE 上取得了第二好的性能,紧随其后的是 CoolMoves。Final IK 在 MPJPE 和 MPJRE 上给出了最差的结果,因为它为了优化末端执行器的地位和姿态,没有考虑到其他身体环节的地位和平滑度。因此,应用 Final IK 进行上身姿态计算的 LoBSTr 的性能也很低。作家表示这显示了用数据驱动办法从现有动作捕捉数据集中学习人体活动的价值。但是,这并不意味着传统的优化办法没有用,作家的消融研究中展示了逆向活动学与深度学习相结合如何提高手部地位的准确性。
为了进一步评价提出的办法的泛化能力,作家在不同办法之间进行了跨数据集评价。为此,作家在两个子集上进行训练,在另一个子集进行测试。表 2 显示了在 CMU、BMLrub 和 HDM05 数据集上测试的不同办法的实验结果。AvatarPoser 再次在所有三个数据集中的所有评价指标上都取得了最好的结果。
作家还对不同子模块进行消融研究,并在表 3 中提供结果。实验是在与表 2 中的 HDM05 相同的测试集上进行的。评价指标为 MPJRE [◦]和 MPJPE [cm] 。除了满身环节的地位偏差外,作家还计算了手部地位的平均偏差,以体现 IK 模块如何帮助改善手的地位。
此外,作家还给出了办法对比的视频,有移动,锻炼,投掷 3 个示例,黄颜色代表偏差,可以说 AvatarPoser 的结果是一骑绝尘,非常丝滑了!
AvatarPoser 也可以在流行的 VR 系统上很好地工作,尽管训练时只应用了合成的动作捕捉数据。作家在 VIVE Pro 头显和两个控制器上进行测试,如视频所示,AvatarPoser 对各种活动类型(如步行、坐着、站立、跑步、跳跃和蹲下)都具有稳定优秀的性能。
总结
这篇论文展示了全新的鉴于 Transformer 的办法 AvatarPoser,仅通过混合现实头显和手持控制器的活动信号来计算真实的人体姿态。AvatarPoser 通过将全部活动信息与学习的姿态特征解耦并应用它来引导姿态计算,在没有腰部信号的情况下获得了稳健的计算结果。此外,通过将鉴于学习的办法与传统的鉴于模型的优化相结合,该办法在满身风格的真实感和准确的手控之间保持平衡。AvatarPoser 在 AMASS 数据集上的大量实验表明其不仅取得了 SOTA 的性能,更为实际的 VR/AR 应用提供了一个实用的解决方案。
原创文章,作者:机器之心,如若转载,请注明出处:https://www.iaiol.com/news/26516