让一位乒乓球爱好者和机器人对打,按照机器人的发展趋势来看,谁输谁赢还真说不准。
机器人拥有灵巧的可操作性、腿部运动灵活、抓握能力出色…… 已被广泛应用于各种寻衅工作。但在与人类互动紧密的工作中,机器人的表现又如何呢?就拿乒乓球来说,这需要双方高度配合,并且球的运动非常快速,这对算法提出了重大寻衅。在乒乓球比赛中,首要的就是速度和精度,这对进修算法提出了很高的要求。同时,这项运动具有高度结构化(具有固定的、可预测的环境)和多智能体协作(机器人可以与人类或其他机器人一起对打)两大特点,使其成为研究人机交互和强化进修成绩的理想实验平台。来自google的机器人研究团队已经建立了这样一个平台来研究机器人在多人、动态和交互环境中进修所面临的成绩。google为此还专门写了一篇博客,来介绍他们一直在研究的两个项目 Iterative-Sim2Real(i-S2R) 和 GoalsEye。i-S2R 让机器人能够与人类玩家举行超过 300 次的对打,而 GoalsEye 则使机器人能够从业余爱好者那里进修到一些有用的战略(方针条件战略)。i-S2R 战略让机器人和人类对打,虽然机器人的握拍姿势看起来不太专业,但也不会漏掉一个球:你来我往,还挺像那么回事,妥妥打出了高质量球的感觉。而 GoalsEye 战略则能将球返回到桌面指定位置,就和指哪打哪差不多:
i-S2R:利用仿照器与人类合作举行游戏在这个项目中,机器人旨在学会与人类合作,即尽可能长时间地与人类举行对打。由于直接针对人类玩家举行训练既乏味又耗时,因此google采用了基于仿照的方式。然而,这又面临一个新的成绩,基于仿照的方式很难精确地仿照人类行动、闭环交互工作等。在 i-S2R 中,google提出了一种在人机交互工作中可以进修人类行动的模型,并在机器人乒乓球平台上对其举行实例化。google已经建立了一个系统,该系统可以与业余人类玩家一起实现高达 340 次击球对打(以下所示)。
人与机器人对打 4 分钟,来回多达 340 次进修人类行动模型让机器人精确的进修人类行动还面临以下成绩:如果一开始就没有足够好的机器人战略,就无法收集关于人类如何与机器人交互的高质量数据。但是如果没有人类行动模型,从一开始就无法获得机器人战略,这个成绩有点绕,就像先有鸡还是先有蛋的成绩。一种方式是直接在现实世界中训练机器人战略,但这通常很慢,成本高昂,并且会带来与安全相关的寻衅,当人参与其中时,这些寻衅会进一步加剧。以下图所示,i-S2R 使用一个简单的人类行动模型作为近似起点,并在仿照训练和现实世界部署之间交替举行。每次迭代中,人类行动模型和战略都会被调整。
i-S2R 方式google根据玩家类型对实验结果举行了细分:初学者(占 40% 的玩家)、中级(占 40% 的玩家)和高级(占 20% 的玩家)。由实验结果可得,对于初学者和中级玩家(占 80% 的玩家),i-S2R 的表现都明显优于 S2R+FT(sim-to-real plus fine-tuning)。
按玩家类型划分的 i-S2R 结果。GoalsEye:可明确击中指定位置在 GoalsEye 中,google还展示了一种方式,该方式结合了行动克隆技术(behavior cloning techniques)来进修明确的方针定位战略。这里google重点关注乒乓球的精度,他们希望机器人可以将小球明确返回到球台上的任意指定位置,就以下图所展示的指哪打哪。为实现以下效果,他们还采用了 LFP(Learning from Play)、GCSL(Goal-Conditioned Supervised Learning)。
GoalsEye 战略瞄准直径为 20cm 的圆圈(左)。人类玩家可以瞄准同样的方针(右)。
在最初的 2480 次示范中,google的训练战略仅在 9% 的时间内精确地击中半径为 30 厘米的圆形方针。在经过了大约 13500 次示范后,小球达到方针的精确率上升到 43%(右下图)。关于这两个项目的更多介绍,请参考以下链接:Iterative-Sim2Real 主页:https://sites.google.com/view/is2rGoalsEye 主页:https://sites.google.com/view/goals-eye原文链接:https://ai.googleblog.com/
原创文章,作者:机器之心,如若转载,请注明出处:https://www.iaiol.com/news/22998