朱松纯团队新作:让AI「读懂」人类代价观!登上Science Robotics

今日(7月14日),国际顶级学术期刊<Science Robotics >发表了朱松纯团队(UCLA袁路遥、高晓丰、北京通用人工智能研究院郑子隆、北京大学人工智能研究院朱毅鑫等作者)的最新研究成果——实时双向人机代价对齐 Bidirectional human-robot value alignment。

朱松纯团队新作:让AI「读懂」人类代价观!登上Science Robotics

朱松纯团队新作:让AI「读懂」人类代价观!登上Science Robotics

论文地址:https://www.science.org/doi/10.1126/scirobotics.abm4183本论文提出了一个可注释的人工智能(XAI)体系,阐述了一种呆板实时了解人类代价观的计算框架,并展示了呆板人如何与人类用户通过实时沟通完成一系列复杂人机分工义务。朱松纯团队长期从事可注释人工智能相关工作。此文是团队第二篇发表在 Science Robotics 的关于可注释人工智能的论文。这项研究涵盖了认知推理、自然语言处理、呆板进修、呆板人学等多学科领域,是朱松纯教授团队交叉研究成果的集中体现。在这个人机共存的时代,为了让呆板更好地服务于人类,理想的人机分工应该是什么样的?我们不妨借鉴一下人类社会的分工,在人类团队分工历程中,共同的代价观和指标是保证团队之间齐心协力、高效分工的基础。眼前呆板智能大多数基于数据驱动(且很多情况下获取不了数据)、且是单方面接受人类指令(一种是人类观测受限的情况下是没法给到指令的)为了解决上述问题,以及为了让呆板能够进行更好地 “自主” 索求,我们要让呆板学会 “读懂” 人类代价观,因此我们提出 “实时双向代价对齐”。这就要求人类要想办法一次次地给到 AI 反应,逐渐地教会 AI“读懂” 人类的代价观,也就是让呆板和人类的 “代价观” 保持一致。这个问题也被称为代价对齐(value alignment),即如何保证人工智能在执行义务历程中所实现的代价和用户所在意的代价是一致的?可以说,代价对齐是人机分工历程中达成共识(common ground)的基础,具有非常重要的研究代价。代价对齐也是未来的一个重要发展方向,是让呆板实现 “自主智能” 的关键所在,也是实现通用人工智能的必经之路。鉴于此,北京通用人工智能研究院院长朱松纯团队一直在致力于此方向的研究。一、研究背景理想的人机分工应该是什么样的?在人工智能发展方兴未艾之时,控制论之父诺伯特 – 维纳(Norbert Wiener)就提出了人机分工的基础:“如果我们使用一个呆板来实现我们的指标,但又不能有效地干预其运作方式… 那么我们最好能笃定,输入给呆板的指标是我们真正所预期的。”近几年来,一系列研究进展都表明:高效的人机分工依赖于团队之间拥有一致的代价观、指标,以及对义务现状的了解。这就要求人类通过与呆板的沟通来高效地建立整个团队对义务的共识,每个团队成员都采取其他伙伴更容易了解的行为决策来完成分工。在大多数情况下,队友之间的沟通历程都是双向的,即每个成员都要扮演着倾听者和表达者两种角色。这样的双向代价对齐决定了人机分工中的沟通是否能够成功,即呆板人是否能准确地推断出用户的代价指标,并有效地注释自己的行为。如果这两个条件没有得到满足,队友间彼此的不了解和误判很可能会导致分工失败。因此,想要使人工智能更好地服务于人类社会,必须让它们在与人类互动时扮演好这两种角色。从倾听者的角度来看,传统人工智能算法(如逆强化进修(IRL)等)能够将交互数据与呆板进修算法相结合,以进修特定义务中用户的代价指标,即通过输入用户在特定义务中的行为方式,来恢复行为背后的奖励函数。然而,在众多实际且重要(如军事和医疗领域)的应用中,数据的获取经常十分昂贵。这些呆板进修方法对大型数据集的依赖是无法应对及时互动的人机分工场景的。从表达者的角度来看,可注释人工智能(XAI)的引入是为了促进人机之间达成共识。眼前的 XAI 体系通常强调的是对 “模型如何产生决策历程” 的注释。然而,不管用户有多少主动的输入或互动,都只能影响呆板 “生成注释” 的历程,而不影响呆板 “做出决策” 的历程。这是一种单向的代价指标对齐,我们称之为静态呆板 – 动态用户的交流,即在这种分工历程中只有用户对呆板或义务的了解发生了变化。二、研究方法为了完成人与呆板之间代价指标的双向对齐,需要一种人类代价主导的、动态呆板 – 动态用户的交流模式。在这样一种新的模式中,呆板人除了揭示其决策历程外,还将根据用户的代价指标及时调整行为,从而使呆板和人类用户能够分工实现一系列的共同指标。为了及时掌握用户信息,我们采用通讯进修取代了传统数据驱动的呆板进修方法,呆板将根据所推断出的用户的代价指标进行合了注释。这种分工导向的人机分工要求呆板具有心智理论(ToM),即了解他人的心理状态(包括情绪、信仰、用意、欲望、假装与知识等)的能力。心智理论最早在心理学和认知科学中被研究,现已泛化到人工智能领域。心智理论在多智能体和人机交互环境中尤为重要,因为每个智能体都要了解其他智能体(包括人)的状态和用意才能更好地执行义务,其决策行为又会影响其他智能体做出判断。设计拥有心智理论的体系不仅在于注释其决策历程,还旨在了解人类的分工需求,以此形成一个以人类为中心、人机兼容的分工历程。为了建立一个具有上述能力的 AI 体系,本文设计了一个 "人机分工索求" 游玩。在这个游玩中,用户需要与三个伺探呆板人分工完成索求义务并最大化团队收益。本游玩设定:1、只有伺探呆板人能直接与游玩世界互动,用户不能直接控制呆板人的行为;2、用户将在游玩初始阶段选择自己的代价指标(例如:最小化索求时间,收集更多的资源,索求更大的区域等),呆板人团队必须通过人机互动来推断这个代价指标。这样的设置真实地模仿了现实世界中的人机分工义务,因为许多 AI 体系都需要在人类用户的监督下,自主地在危险的环境中运行(如在核电站有核泄漏的情况下)。要成功地完成游玩,呆板人需要同时掌握 “听” 和“说”的能力来实现代价双向对齐。首先,呆板人需要从人类的反应中提取有用的信息,推断出用户的代价函数(描述指标的函数)并相应地调整它们的策略。其次,呆板人需要根据它们眼前的代价推断,有效地注释它们 "已经做了什么" 和 "计划做什么",让用户知道呆板人是否和人类有相同的的代价函数。同时,用户的义务是指挥侦查呆板人到达目的地,并且使团队的收益最大化。因此,用户对呆板人的评价也是一个双向的历程,即用户必须及时推断伺探呆板人的代价函数,检查其是否与人类的代价函数相一致。如果不一致,则选择适当的指令来调整他们的指标。最终,如果体系运行良好,伺探呆板人的代价函数应该与人类用户的代价函数保持一致,并且用户应该高度信任呆板人体系自主运行。

朱松纯团队新作:让AI「读懂」人类代价观!登上Science Robotics

图 1. 人机代价对齐历程总览。图 1 介绍了游玩中的双向代价调整历程。在游玩互动历程中,存在着三个代价指标,分别是朱松纯团队新作:让AI「读懂」人类代价观!登上Science Robotics:用户的真实代价;朱松纯团队新作:让AI「读懂」人类代价观!登上Science Robotics呆板人对用户代价的估计(在游玩中,伺探呆板人没有自己的代价,所以他们以人类用户代价的估计为依据采取行动);朱松纯团队新作:让AI「读懂」人类代价观!登上Science Robotics用户对呆板人代价的估计。基于这三个代价指标产生了两种代价对齐——朱松纯团队新作:让AI「读懂」人类代价观!登上Science Robotics:呆板人从用户给出的反应中进修用户的代价;朱松纯团队新作:让AI「读懂」人类代价观!登上Science Robotics: 用户从呆板人给出的注释和互动中了解呆板人的代价。最终,三种代价指标将汇聚于朱松纯团队新作:让AI「读懂」人类代价观!登上Science Robotics,人 – 机团队将形成相互信任和高效的分工。本文提出的 XAI 体系旨在共同解决以下两个问题:1. 在及时互动和反应历程中,呆板如何准确估计人类用户的用意?2. 呆板如何注释自己,以便人类用户能够了解呆板的行为,并提供有用的反应来帮助呆板做出代价调整?在本文提出的体系中,呆板人提出义务计划的建议,并要求人类用户给出反应(接受或拒绝建议),从人类反应中推断出义务指标背后人类真实的代价用意。在分工游玩中,如果用户知道呆板人正在积极进修他的代价指标,那么用户就会倾向于提供更加有用的反应,以促进代价保持对齐。特别地,每条信息都传达了两方面的意义,包括(1)基于代价指标的语义信息和(2)基于不同注释方式之间区别的语用信息。利用这两方面的含义,XAI 体系以一种多轮的、及时的方式展示了代价的一致性,在一个问题搜索空间大的团队分工义务中实现了高效的人机互动交流。为了使呆板人的代价指标与用户保持一致,XAI 体系生成注释、揭示呆板人对人类代价的眼前估计、并证明提出规划的合理性。在每一步的互动中,为了避免注释内容过于冗长,呆板人会提供定制化的注释,比如省略重复的已知信息并强调重要的更新。在收到呆板人的注释并向它们发送反应后,用户向呆板人提供提示,说明他们对最新建议和注释的满意程度。利用这些反应,呆板人会不断地更新注释的形式和内容。为了评估本文 XAI 体系的性能,我们邀请了人类用户进行了一系列实验,以此考察人类 – 呆板双向代价协调是否成功。我们采用了三种类型的注释,并将用户随机分配到三组中的一组。实验结果表明,我们所提出的 XAI 体系能够以有效地实现及时双向的代价对齐,并用于分工义务;呆板人能够推断出人类用户的代价,并调整其代价估计被用户所了解。此外,有必要进行多样化的注释,以提高呆板的决策性能和它们的社会智能。分工式的人工智能的指标是减少人类的认知负担,并协助完成义务,我们相信,主动及时推断人类的代价指标,并促进人类对体系的了解,将会为通用智能体的人机分工铺平道路。三、游玩设置如图 2 所示,在我们设计的分工游玩中,包含一个人类指挥官和三个伺探呆板人。游玩的指标是需要在一张未知的舆图上找到一条从基地(位于舆图的右下角)到目的地(位于舆图的左上角)的安全路径。该舆图被表示为一个部分可见的 20×20 网格图,每个格子都可能有一个不同的装置,只有在伺探呆板人靠近它之后才可见。在游玩中,人类指挥官和伺探呆板人具有结构性的相互依赖关系,一方面人类指挥官需要依靠伺探呆板人索求危险区域并排除爆炸物,另一方面,伺探呆板人需要依赖人类指挥官提供的反应更好地了解眼前义务的指标。

朱松纯团队新作:让AI「读懂」人类代价观!登上Science Robotics

朱松纯团队新作:让AI「读懂」人类代价观!登上Science Robotics

图 2:伺探索求游玩的用户界面。从左到右,图例面板显示游玩舆图中的图例。代价函数面板显示这局游玩的代价函数,伺探呆板人不知道这个函数,用户也不能修改。中心舆图显示眼前舆图上的信息。分数面板显示了用户的眼前分数。总分的计算方法是将各个指标的分数用代价函数加权后的总和。状态面板显示体系的眼前状态。提议面板显示伺探呆板人眼前的义务计划提议,用户可以接受 / 拒绝每个建议。注释面板显示伺探呆板人提供的注释。我们为伺探呆板人制定了在寻找到路径时额外的一系列指标,包括 1)尽快到达目的地,2)调查舆图上的可疑装置,3)索求更大的区域,以及 4)收集资源。游玩的表现是由伺探呆板人完成这些指标的情况和它们的相对重要性(权重)来衡量的,其中的权重就是人类用户的代价函数。例如,如果人类指挥官更注重时效而不是获取更多的资源,那么伺探呆板人则应该忽略沿途上的部分资源以保证尽快到达目的地。(注,这个代价函数只在游玩开始时向人类用户透露,而不对伺探呆板人透露。图 3 总结了人机互动的流程。)在不清楚人类指挥官代价取向的情况下,呆板人伺探兵小队必须快速推断出人类的代价判断,在每一步行动中,呆板人伺探小队每一个成员都要给出下一步行动方案,由人类指挥官选择。为了帮助指挥官进行决策,伺探呆板人小队将注释行动方案的依据。结合指挥官的反应,以往的互动历史和眼前的舆图情况,伺探呆板人小队将调整其对指挥官眼前代价观的判断,并采取相应的行动。

朱松纯团队新作:让AI「读懂」人类代价观!登上Science Robotics

图 3:侦查索求游玩的设计。时间线(A)表示在一轮游玩中发生的事件,从呆板人收到环境信号开始,到它们的下一步动作结束。时间线(B)和(C)分别描述了呆板人和用户的心智变化历程。四、及时双向代价对齐模型为了估计人类指挥官在通信历程中的代价函数,我们将两个层次的心智理论整合到我们的计算模型中。第 1 层心智理论考虑分工性假设。也就是说,给定一个分工的人类指挥官,被他接受的来自呆板人的提议,更有可能与正确的代价函数相一致。第 2 层心智理论进一步将用户的教育方法纳入模型,使呆板人更接近人类指挥官真实代价的反应比其他反应更容易被人类指挥官选择。建模人类指挥官的教育倾向(pedagogical inclination)需要更高一层的心智理论。结合这两个层次的心智理论,我们将人类指挥官的决策函数写成一个由代价函数参数化的分布,并开发出一种新的进修算法。值得注意的是,与我们的人机分工框架有可比性但不同的方法是逆强化进修。逆强化进修的目的是在一个被动的进修环境中,根据预先录制的、来自专家的演示(demonstration)来恢复底层的奖励函数(reward function)。与之不同的是,在我们的环境中,伺探呆板人被设计为从人类指挥官给出的稀缺监督中进行交互进修。更重要的是,我们的设计要求呆板人在义务进行的历程中及时地、主动地推断人类指挥官的代价。此外,为了完成分工,伺探呆板人不仅必须迅速了解人类指挥官的用意,还要阐明自己的决策依据,以确保在整个游玩历程中与人类指挥官顺利沟通。总体来看,呆板人的义务是通过推断人类用户的心智模型,积极提出建议,并评估人类用户的反应来进行代价调整。这些都需要呆板对人类用户进行复杂的心智建模,并具有及时更新模型的能力。

朱松纯团队新作:让AI「读懂」人类代价观!登上Science Robotics

朱松纯团队新作:让AI「读懂」人类代价观!登上Science Robotics

五、总结本文提出的 XAI 体系成功地证明了双向人机代价对齐框架的可行性。从倾听者的角度来看,所有三个注释组中的呆板人都可以在游玩进度达到 25% 时,通过对至少 60% 的指标重要性进行正确排序,快速与用户的代价进行对齐。从表达者的角度来看,通过提供适当的注释,呆板人可以向用户说明其用意,并帮助人类更好的感知呆板人的代价,当给呆板提供”完整注释 “时,只需在游玩进度达到 50% 时即可实现人类用户代价与呆板人代价的统一,而当只提供” 简要注释“时,游玩进度需要达到 75% 时才能完成代价的统一。我们从上述两个角度得到了令人信服的证据,实现了双向代价对齐的历程,具体来说:1. 通过接收人类的反应,呆板人逐渐更新其代价函数来与人类的代价保持一致;2. 通过不断地与呆板人交互,人类用户逐渐形成对体系能力和用意的感知。虽然呆板人体系的代价在游玩的上半场没有与人类用户实现统一,但用户对呆板人代价评估能力的感知仍然可以提高。最终,当呆板人的代价变得稳定时,用户对呆板人的评估也变得稳定。从呆板人对用户代价的评估到用户代价的真实值,以及从用户对呆板人代价的评估到呆板人眼前代价的收敛配对,形成了由用户真实代价锚定的双向代价对齐。总的来说,我们提出了一个双向人机代价对齐框架,并使用 XAI 体系验证其可行性。我们提出的 XAI 体系表明,当把心智理论集成到呆板的进修模块中,并向用户提供适当的注释时,人类和呆板人能够通过及时交互的方式实现心智模型的对齐。我们提出的计算框架通过促进人和呆板之间共享心智模型的形成,为解决本文的核心问题 "理想的人机分工应该是什么样的?" 提供了全新的解答。在这个游玩义务中,我们的工作侧重于以代价和用意为核心对心智进行建模,对齐这些代价可以极大地帮助人类和呆板为面向义务的分工建立共同基础,使其可以胜任更加复杂的场景何义务。因此,我们的工作是在人机分工中朝着更通用的心智模型对齐迈出的第一步。在未来的工作中,我们计划索求哪些因素能够进一步增强人类用户信任(例如,允许对呆板人进行反事实查询),验证 "对齐" 对义务性能的影响,并将我们的体系应用于涉及更复杂环境和代价函数的义务。

原创文章,作者:机器之心,如若转载,请注明出处:https://www.iaiol.com/news/25518

(0)
上一篇 2022年7月14日 下午3:02
下一篇 2022年7月14日 下午4:38

相关推荐

发表回复

您的电子邮箱地址不会被公开。 必填项已用*标注