争取盟友、洞察人心,最新的Meta智能体是个谈判高手

AI 学会了「揣度人心」,这本来是世界上最难的事情之一。

长期以来,游玩一直是 AI 进步的试验场——从深蓝战胜国际象棋大师 Garry Kasparov,到 AlphaGo 对围棋的精通程度超越人类,再到 Pluribus 在扑克比赛中击败最厉害的玩家。但真正有用的、全能的智能体不能仅仅只会完棋盘游玩、移动移动棋子。有人不禁会问:我们能否建立一个更有效、更灵活的智能体,使其可以或许像人类一样使用言语进行谈判、说服并与人互助,以实现计谋宗旨?

在游玩的历史上,存在一款经典的桌面游玩 Diplomacy,很多人在第一次看到该游玩时,都会被它地图式的棋盘吓一跳。以为它是一个复杂的战争游玩。其实不然,这是一款需要调动言语争取盟友的游玩,迁涉到决策与谈判协商,玩者之间有大量的调换,赢得游玩的关键在人与人之间的互动。

现在 Meta 向这一游玩发起了挑拨,他们构建的智能体 CICERO,成为首个在 Diplomacy 中达到人类水平的 AI。CICERO 通过在在线版本 webDiplomacy.net 上证明了这一点,其中 CICERO 的平均得分是人类玩家的两倍多,并且在玩过不止一场游玩的参与者中排名前 10%。

争取盟友、洞察人心,最新的Meta智能体是个谈判高手

论文地址:https://www.science.org/doi/10.1126/science.ade9097

主页地址:https://ai.facebook.com/research/cicero/diplomacy/

几十年来,Diplomacy 一直被视为 AI 领域中不可逾越的巨大挑拨,因为这款游玩要求玩家理解他人的动机和观点,需要订定复杂筹划,调整方略,并在此基础上使用自然言语与他人达成协议,说服别人结成伙伴关系和联盟等。这些对智能体来说还是比较困难的,而 CICERO 在使用自然言语与 Diplomacy 玩家进行谈判方面还是非常有效的。

与国际象棋和围棋不同的是,Diplomacy 是一款关于人而不是棋子的游玩。如果智能体无法识别对手是在虚张声势,还是真正的发起攻击,它就会很快输掉比赛。同样,如果智能体不能像人一样调换,表现出同理心,与别人建立关系,对游玩侃侃侃谈——它就找不到其他愿意与它互助的玩家。

争取盟友、洞察人心,最新的Meta智能体是个谈判高手

Meta 的这项研究将计谋推理(如 AlphaGo、Pluribus)与自然言语处理( 例如 GPT-3、 BlenderBot 3、LaMDA、OPT-175B)进行了结合。例如,在游玩后期,CICERO 推断出它将需要一个特定玩家的支持,然后 CICERO 会订定一个方略来赢得这个人的青睐。

争取盟友、洞察人心,最新的Meta智能体是个谈判高手

如何构建 CICERO

CICERO 的核心是一个可控的对话模型和一个计谋推理引擎。在游玩的每一点,CICERO 都会查看 game board 及其对话历史,并对其他玩家可能采取的行径进行建模。然后订定筹划来控制言语模型,将它的筹划告知其他玩家,并为与他们协调良好的其他玩家提出合理的行径建议。

可控对话

为了构建一个可控对话模型,Meta 从一个具有 27 亿参数的类 BART 言语模型开始,并在来自互联网的文本上进行了预训练,还在 webDiplomacy.net 上对 40000 多个人类游玩进行了微调。

实现过程主要分为以下几步:

Step 1:根据 board state 和当前对话,CICERO 对每个人将做出什么给出初步展望。

争取盟友、洞察人心,最新的Meta智能体是个谈判高手

Step 2:CICERO 迭代地改进初步展望,然后使用改进展望为自己和互助伙伴形成一个用意。

争取盟友、洞察人心,最新的Meta智能体是个谈判高手

Step 3:根据 board state、对话和用意天生多条候选消息。

争取盟友、洞察人心,最新的Meta智能体是个谈判高手

Step 4:过滤候选消息,最大化值,并确保彼此之间的用意一致。

争取盟友、洞察人心,最新的Meta智能体是个谈判高手

研究者利用一些过滤机制进一步提高对话质量,比如用训练过的分类器来区分人类和模型天生的文本以确保——对话是合理的,与当前游玩状态和以前的信息一致,并且在计谋上是合理的。

对话意识计谋和规划

在涉及互助的游玩中,智能体需要学会模拟人类在现实生活中实际会做什么,而不是将人类看作机器,让智能体指挥他们应该做什么。因此,Meta 希望 CICERO 订定的筹划与其他参与者的对话保持一致。

争取盟友、洞察人心,最新的Meta智能体是个谈判高手

人类建模的经典方法是监督学习,即用标记的数据(如过去游玩中人类玩家的行径数据库)来训练智能体。然而,纯粹依靠监督学习来选择基于过去对话的行径,会导致智能体相对较弱,而且很容易被利用。例如,一个玩家可以告诉智能体「我很高兴我们同意你将把你的部队从巴黎移走!」由于类似的信息只有在达成协议时才会出现在训练数据中,因此智能体可能真的会将其部队调离巴黎,即使这样做是一个明显的计谋失误。

为了解决这个问题,CICERO 运行一个迭代规划算法,以平衡对话的一致性和合理性。智能体首先根据它与其他玩家的对话展望每个人在当前回合的方略,同时也展望其他玩家认为智能体的方略将会是什么。然后,它将运行名为「piKL」的规划算法,该算法通过尝试选择在其他玩家展望的方略下具有更高期望值的新方略,来迭代改进这些展望,同时也尝试使新的展望接近于原始方略展望。研究者发现,与单纯的监督学习相比,piKL 能更好地模拟人类游玩,并为智能体带来更好的方略。

争取盟友、洞察人心,最新的Meta智能体是个谈判高手

天生自然的、目的型的对话

在 Diplomacy 中,玩家如何与他人交谈甚至比他们如何移动棋子更重要。CICERO 在与其他玩家订定计谋时,可以或许清楚地、有说服力地调换。例如,在一个 demo 中,CICERO 要求一个玩家立即在棋盘的某个部分提供支持,同时向另一个玩家施加压力让其在游玩的后期考虑结盟。

争取盟友、洞察人心,最新的Meta智能体是个谈判高手

调换中,CICERO 试图通过向三个不同的玩家提出行径建议来执行其计谋。在第二次对话中,智能体可以或许告诉其他玩家为什么他们应该互助,以及它将如何对双方有利。在第三次对话中,CICERO 既在征求信息,也在为未来的行径打下基础。

不足之处

必须承认,CICERO 有时也会产生不一致的对话,从而破坏其宗旨。在下面的例子中,CICERO 扮演的是奥地利,但智能体要求意大利转移到威尼斯,与它的第一个信息相矛盾。

争取盟友、洞察人心,最新的Meta智能体是个谈判高手

让「Diplomacy」推进人类与 AI 互动的沙盒

在一个既涉及互助又涉及竞争的游玩中,出现了以宗旨为导向的对话系统,对于使 AI 与人类的用意和宗旨相一致方面,这提出了重要的社会和技术挑拨。「Diplomacy」为研究这个问题提供了一个特别有趣的环境,因为玩这个游玩需要与冲突的宗旨搏斗,并将这些复杂的宗旨转化为自然言语。举个简单的例子,玩家可能会选择在短期利益上做出妥协来维持和一个盟友的关系,因为这个盟友有可能在下一回合帮助他们进入一个更好的位置。

虽然 Meta 在这项工作中取得了重大进展,但将言语模型与具体用意有力地结合起来的能力,以及决定这些用意的技术(和规范)挑拨仍然是重要的问题。通过开源 CICERO 代码,Meta 希望 AI 研究人员可以或许以负责任的方式继续在这一工作基础上发展。团队表示:「通过使用对话模型进行零样本分类,我们已经在这个新领域中迈出了检测和删除有害信息的早期步骤。我们希望「Diplomacy」可以作为一个安全的沙盒来推进人与 AI 互动的研究。」

未来方向

虽然目前 CICERO 只可以或许玩 Diplomacy 游玩,但这一成就背后的技术与许多现实世界的应用有关。例如,通过规划和 RL 控制自然言语的天生,可以缓解人类和 AI 驱动的智能体之间的沟通障碍。

例如,今天的人工智能助手擅长回答简单的问题,比如告诉你天气,但如果他们能保持长期的对话,以教你一个新技能为宗旨呢?

另外,想象一个视频游玩,其中 NPC 可以像人一样筹划和交谈—理解你的动机并相应地调整对话,帮助你完成攻打城堡的任务。

这些「梦想」,未来或许都能走进现实。

原文链接:https://ai.facebook.com/blog/cicero-ai-negotiates-persuades-and-cooperates-with-people/

原创文章,作者:机器之心,如若转载,请注明出处:https://www.iaiol.com/news/zheng-qu-meng-you-dong-cha-ren-xin-zui-xin-de-meta-zhi-neng/

(0)
上一篇 2022年 11月 23日 下午3:46
下一篇 2022年 11月 23日 下午4:15

相关推荐

  • 不氪金玩转中文超大规模预训练,这里有一份详细攻略

    随着企业智能化转型的深入,智能文本处理需求广泛存在,而传统的NLP定制方法在实际的产业使用中面临着不少问题,包括需要较多高质量的人工标注数据、缺少NLP手艺选型与模型调优经验、迭代调优耗时长等,再加上往往需要高昂的算力花费,让不少企业望而生畏。

    2020年 12月 18日
  • AI「读图领会」首超人类!阿里达摩院刷新全球VQA纪录

    历经六年,AI 在这一手艺上得分首超人类。

    2021年 8月 12日
  • Creator 面对面 | 多少深度进修的算法设计和数学表面

    2016年,Yann LeCun 等人在 《Geometric deep learning: going beyond Euclidean data》一文中提出多少深度进修这一概念。现今多少机器进修和基于图的机器进修已经是当前最热门的研究课题之一。

    2022年 7月 23日
  • 瑞莱聪明完成新一轮战略融资,加速打造中国AGI危险基座

    近日,人工智能危险基础设施提供商瑞莱聪明(RealAI)宣布完成新一轮战略融资,北京市人工智能产业投资基金等参与投资。本轮融资完成后,瑞莱聪明将继续加速通用人工智能危险基座产物研发,并不断推进危险可控的大模型商业化落地。随着全球范围内最大规模的人工智能浪潮掀起,人工智能的可控性和危险性成为愈发重要的发展议题。如今,人工智能大模型的通用性和泛化性大幅提升,利用也从传统的判别式任务走向天生式任务,而人工智能的内生及衍生危险问题变得愈加复杂,其带来的挑拨和已经引起的各类危险事件也持续受到全球公众、企业和政府的广泛关注。当

    2024年 4月 12日
  • 汽车网关性能新标杆,芯驰科技发布G9系列最新旗舰产物

    7月28日,领先的车规芯片企业芯驰科技发布网关芯片“网之芯”G9系列的最新旗舰产物G9H,面向下一代高性能中心网关、车载计算单元、跨域控制器等应用场景。G9H在保留高平安性和高可靠性的同时,显著提升车内数据交换和处理能力,助力汽车电子电气架构向域控和中心计算的晋级。面向未来的高性能网关处理器G9H基于芯驰高性能高可靠车规处理器平台设计,采用台积电16纳米车规工艺,应用处理器部分配备6个1.8GHz主频的ARM Cortex-A55 CPU,用于运行Linux/QNX等复杂操作系统,并可在此基

    2022年 7月 29日
  • 上市首日市值就超福特,Rivian何德何能?

    今日凌晨,号称特斯拉杀手的美国明星电动汽车制造商Rivian正式在美国纳斯达克挂牌上市,代码「RIVN」。IPO发行价定为78美元,盘中涨幅一度扩大至逾50%,股价最高至119.46美元,收盘时有所回落,但估值仍达到859.08亿美元,已超过福特,距通用汽车仅有1.44亿美元。作为对比,11年前特斯拉IPO估值不超过20亿美元,募资仅为2.26亿美元;今年7月,美国另一明星电动汽车制造商Lucid Motors与合并后的股值也仅有240亿美元,募资44亿美元。Rivian的高估值与近期新能源汽车在美国股市的疯狂有关

    2021年 11月 12日
  • 神经搜集debug太难了,这里有六个实用技巧

    神经搜集的 debug 过程着实不容易,这里是一些有所帮助的 tips。

    2021年 6月 11日
  • 「声纹辨认」中文课上线:从理论到编程实战,谷歌声纹团队负责人主讲

    对任意一个范畴的进修,如果有人可以指挥你完毕从基本概念、试验方法到体系认知的构建,你的职业发展将事半功倍。声纹辨认范畴,现在就有这样一门课程刚刚上线。

    2022年 8月 16日

发表回复

您的电子邮箱地址不会被公开。 必填项已用 * 标注