ICLR 2022 | 鉴于心智理论的多智能体通讯与分工

本文是 ICLR 2022入选论文《ToM2C: Target-oriented Multi-agent Communication and Cooperation with Theory of Mind》的解读。该论文由北京大学王亦洲课题组完成。文章提出了一种鉴于心智理论的多智能体通讯与分工方法。每一个智能体鉴于对他人心理状态的推想独立地抉择通讯对象和个体行动,进而实现分布式的分工。试验表明该方法提高了多智能体分工的成功率,大幅降低了通讯价钱,并且具有良好的泛化性能。

论文链接:https://arxiv.org/abs/2111.09189

01 研究背景

多智能体分工是多智能体系统中的一个重要问题。我们希望每一个智能体能够鉴于有限的局部查看独立地进行决议计划,但在整体上又和其余智能体一起构成团队完成共同任务。为了更好地实现分工,我们一般需求允许智能体之间通讯交流重要信息以避免冲突。此前多智能体分工的相关工作大多数依赖集中训练分布执行(CTDE)框架隐式地指导智能体进修适应他人的行为模式,泛化性较差。而多智能体通讯的相关工作则大都无法避免引入一个广播信道,通讯价钱较高。

为了解决多智能体分工问题,我们可以借鉴人类分工的机制。认知学的相关研究表明人类在分工的过程中相当依赖一种能力——“心智理论”(Theory of Mind)。具体而言,人类能够通过查看他人来推想他人的心理状态,包括意图、信念、欲望等等。鉴于这些推想,人类能更好地调整自身的行动以配合他人。在这篇论文中,我们将这种能力赋予智能体,使其在自身决议计划之前先对其他智能体的意图和查看做出估计,然后鉴于这些估计点对点抉择通讯对象,最后综合查看、推想和收到的信息做出决议计划。

02 方   法

在本文中,我们主要关注 Target-oriented Multi-agent Cooperation (ToMAC) 这一类分工问题。这类问题中情况存在复数个方针,智能体需求分工地调整他们与方针之间的关系来完成任务。例如多个智能体需求分工收集情况中的多个物体,或者分别导航至多个目的地。对此我们提出了鉴于心智理论的多智能体通讯与分工框架 ToM2C(图1)。每一个智能体首先从情况中获取局部查看,然后使用 ToM 收集推想其余智能体的查看内容以及它们下一步将要抉择的方针。此后,每一个智能体将局部查看和估计得到的信息编码为图神经收集中的结点和边特征,通过采样得到通讯连接。通讯的内容是推想的接收方将要抉择的方针。最后,每一个智能体结合自己的查看,估计的他人方针以及接受到的信息,抉择自己下一步的方针。

模型的训练大致分为两部分:ToM 收集的训练和其余部分的训练。ToM 收集训练采取监督进修的方式,使用他人实际抉择的方针和实际的查看作为标签。其余部分的训练通过多智能体强化进修端到端的完成。为了防止ToM收集和策略收集在训练时之间互相影响导致难以收敛,我们将二者的训练分开,在训练其中一部分时冻结另一部分的参数。

为了进一步提高通讯效率,我们还提出了一种 Communication Reduction 方法。具体而言,如果某一时刻一个智能体接收通讯与否不影响最后的决议计划,那么我们就把所有通往这个智能体的通讯连接标记为冗余,然后使用监督进修对 message sender 收集进行调整。

ICLR 2022 | 鉴于心智理论的多智能体通讯与分工

图1. ToM2C框架

03 实   验

我们在两个情况中分别进行了试验。Cooperative Navigation (CN) 中 N 个智能体需求分工分别去往 N 个目的地。Multi-Sensor Multi-Target Coverage (MSMTC) 中 N 个传感器需求分工覆盖M个移动的方针(图2)。

ICLR 2022 | 鉴于心智理论的多智能体通讯与分工

图2. 两种试验情况

试验表明,ToM2C 不仅使分工更为成功(图3),同时通讯价钱远低于其他 SOTA 方法(图4)。我们还进一步测试了 ToM2C 的泛化性能。在 MSMTC 情况中,我们分别使用 ToM2C 和 HiT-MAC (baseline) 在4传感器5方针的设定下训练模型,然后将它们 zero-shot transfer 到不同数量的情况(2~10个传感器/2~10个方针)。结果表明 ToM2C 具有优秀的泛化性能(图5)。

ICLR 2022 | 鉴于心智理论的多智能体通讯与分工

图3. 在MSMTC情况中的进修曲线和消融试验

ICLR 2022 | 鉴于心智理论的多智能体通讯与分工

图4. CN(左)和MSMTC(右)情况中各模型的通讯带宽

ICLR 2022 | 鉴于心智理论的多智能体通讯与分工

图5. MSMTC情况中ToM2C和HiT-MAC的泛化性能对比,颜色越均匀则泛化性越好

04 总   结

在这篇论文中我们鉴于心智理论设计了一种新颖的多智能体通讯与分工的机制 ToM2C。智能体通过推想他人的查看和方针来辅助通讯抉择和个体决议计划。此外,一种减少冗余通讯的方法也被用于进一步提高通讯效率。试验表明这一机制能够促进分工,降低通讯价钱并且具有良好的泛化性。

图文 | 王远非

Computer Vision and Digital Art (CVDA)

原创文章,作者:北京大学前沿计算研究中心,如若转载,请注明出处:https://www.iaiol.com/news/iclr2022-jian-yu-xin-zhi-li-lun-de-duo-zhi-neng-ti-tong-xun/

(0)
上一篇 2022年 7月 18日 下午5:05
下一篇 2022年 7月 18日 下午5:35

相关推荐

  • 扫鼻子找狗子:支付宝上线宠物鼻纹辨别,一键报失,全民帮寻

    世上没有两片完全相同的树叶,也没有完全相同的两个狗 / 猫鼻子。

    2021年 7月 20日
  • 39亿参数模型公开可用,采样速度7倍提升,残差量化天生图片入选CVPR’22

    基于残差量化的自回归图象天生,官方已将代码公开。

    2022年 3月 27日
  • 专栏 | 蒙特卡洛树搜寻在黑盒优化和神经收集结构搜寻中的应用

    布朗大学在读博士王林楠在本文中介绍了他与 Facebook 田渊栋团队合作,在 2020 年 NeurIPS 取得亮眼表现的新算法,以及其在神经收集结构搜寻中的应用。

    2021年 1月 6日
  • FC 2022 | 基于博弈论分析的非同质化代币证券化与回购商场

    本文是 FC 2022入选论文《ABSNFT: Securitization and Repurchase Scheme for Non-Fungible Tokens Based on Game Theoretical Analysis》的解读。该论文为北京大学前沿计算研究中心算法博弈论实验室2021年暑期夏令营的科研结果,指导老师为北京大学前沿计算研究中心邓小铁教授和苏州科技大学程郁琨教授。文章提出了一种将区块链上的非同质化代币(Non-Fungible Token, NFT)进行证券化与回购的规划,并基于博弈论对该规划进行理论分析。

    2022年 7月 18日
  • 国内首届AI宁静大赛圆满收官,上交大、北交大、北理工等夺得三项赛道冠军

    从长远看,人工智能的宁静问题,还需从算法模型的原理上突破,唯有持续加强基础钻研,才能破解核心科学问题。

    2022年 9月 16日
  • 支援6kW外放电,最快6.9s破百!吉利首款纯电皮卡起售价17.88万元

    昨日(11月9日),吉利旗下雷达新能源汽车发布首款产品雷达RD6,共推出启航版、创客版、悦享版、悦野版4款车型,售价为17.88万-26.88万元。雷达官方表示,目前购车的用户将会至本月至明年一季度内提车。现场,雷达还发布了其打造的国内首个原生纯电皮卡平台M.A.P。作为搭载该平台的首款车型,雷达RD6的百公里加快可达6.9s,最长续航为632km,并具有一系列智能化能力,配备智能座舱和12项L2+级智能驾驭帮助功用。此外,雷达还透露了他们后续车型的研发规划:未来他们还将推出中型纯电皮卡、中大型新能源皮卡、全尺寸纯

    2022年 11月 10日
  • 申请CS博士学位前,布朗大学Jeff Huang团队这份师资、排名和奖学金统计值得参考

    这是一份申请 CS 博士学位前可以认真参考的统计资料。

    2022年 5月 9日
  • AAAI 2021论文:Graph Diffusion Network提升交通流量预计精度(附论文下载)

    都市流量预计作为智能交通中的一个重要问题,致力于准确预计都市中差别地区的流量信息,从而更好地实现地区间的流量管控、拥塞控制以及保障都市公共安全。本文将介绍一种鉴于时空图扩散网络的都市交通流量预计模型。本文工作是由京东数科硅谷研发实行室,京东都市和华南理工大学合作的一篇论文《Traffic Flow Forecasting with Spatial-Temporal Graph Diffusion Network》,目前该论文已经被人工智能领域的顶级会议AAAI 2021(CCF A类)接收。

    2021年 8月 11日
  • 12nm战胜4nm|权威AI测试MLPerf放榜,单卡算力超H100!

    2020年9月9日,寰球权威AI基准评测MLPerf Inference v2.1榜单公布结果。MLPerf是业内公认的国际权威AI功能基准评测,由图灵奖得主大卫·帕特森(David Patterson)联合谷歌、英伟达 、英特尔、Facebook、浪潮等寰球AI领军企业,以及来自哈佛大学、斯坦福大学等学术机构的研究人员创立。该测评以其标准严峻、测评严谨而著称,英伟达、高通等国际AI芯片企业均携最强产物参加测评,竞争十分激烈,各赛道均有数百项产物提交成绩。中国AI芯片企业首次超越英伟达“史上最强GPU”、未来4nm

    2022年 10月 12日
  • 海内外71支劲旅角逐青光眼AI,视杯盘宰割义务体素科技团队斩获第一

    MICCAI(Medical Image Computing and Computer Assisted Intervention)始于1998年的麻省理工学院,意在探索医学影像、计算机辅助介入以及两者融合的价值。20逾年的发展,MICCAI已成为医学影像分析行业的顶级学术会议。百度组织的眼科医学影像分析研讨会OMIA (Ophthalmic Medical Image Analysis)是眼科影像领域的重点研讨会之一,至今已举办八届。2021MICCAI之上,OMIA将议点聚焦于青光眼之上,举办了GAMMA挑战赛

    2021年 10月 1日

发表回复

您的电子邮箱地址不会被公开。 必填项已用 * 标注