ICLR 2022 | 鉴于心智理论的多智能体通讯与分工

本文是 ICLR 2022入选论文《ToM2C: Target-oriented Multi-agent Communication and Cooperation with Theory of Mind》的解读。该论文由北京大学王亦洲课题组完成。文章提出了一种鉴于心智理论的多智能体通讯与分工方法。每一个智能体鉴于对他人心理状态的猜测独立地抉择通讯对象和个体行动，进而实现分布式的分工。试验表明该方法提高了多智能体分工的成功率，大幅降低了通讯价值，并且具有良好的泛化性能。

论文链接：https://arxiv.org/abs/2111.09189

01 研究背景

多智能体分工是多智能体系统中的一个重要问题。我们希望每一个智能体能够鉴于有限的局部查看独立地进行决议，但在整体上又和其余智能体一起构成团队完成共同任务。为了更好地实现分工，我们一般须要允许智能体之间通讯交流重要信息以避免冲突。此前多智能体分工的相关工作大多数依赖集中训练分布执行（CTDE）框架隐式地指导智能体进修适应他人的行为模式，泛化性较差。而多智能体通讯的相关工作则大都无法避免引入一个广播信道，通讯价值较高。

为了解决多智能体分工问题，我们可以借鉴人类分工的机制。认知学的相关研究表明人类在分工的过程中相当依赖一种能力——“心智理论”（Theory of Mind）。具体而言，人类能够通过查看他人来猜测他人的心理状态，包括意图、信念、欲望等等。鉴于这些猜测，人类能更好地调整自身的行动以配合他人。在这篇论文中，我们将这种能力赋予智能体，使其在自身决议之前先对其他智能体的意图和查看做出揣度，然后鉴于这些揣度点对点抉择通讯对象，最后综合查看、猜测和收到的信息做出决议。

02 方法

在本文中，我们主要关注 Target-oriented Multi-agent Cooperation (ToMAC) 这一类分工问题。这类问题中情况存在复数个标的，智能体须要分工地调整他们与标的之间的关系来完成任务。例如多个智能体须要分工收集情况中的多个物体，或者分别导航至多个目的地。对此我们提出了鉴于心智理论的多智能体通讯与分工框架 ToM2C（图1）。每一个智能体首先从情况中获取局部查看，然后使用 ToM 收集猜测其余智能体的查看内容以及它们下一步将要抉择的标的。此后，每一个智能体将局部查看和揣度得到的信息编码为图神经收集中的结点和边特征，通过采样得到通讯连接。通讯的内容是猜测的接收方将要抉择的标的。最后，每一个智能体结合自己的查看，揣度的他人标的以及接受到的信息，抉择自己下一步的标的。

模型的训练大致分为两部分：ToM 收集的训练和其余部分的训练。ToM 收集训练采取监督进修的方式，使用他人实际抉择的标的和实际的查看作为标签。其余部分的训练通过多智能体强化进修端到端的完成。为了防止ToM收集和策略收集在训练时之间互相影响导致难以收敛，我们将二者的训练分开，在训练其中一部分时冻结另一部分的参数。

为了进一步提高通讯效率，我们还提出了一种 Communication Reduction 方法。具体而言，如果某一时刻一个智能体接收通讯与否不影响最后的决议，那么我们就把所有通往这个智能体的通讯连接标记为冗余，然后使用监督进修对 message sender 收集进行调整。

ICLR 2022 | 鉴于心智理论的多智能体通讯与分工

图1. ToM2C框架

03 实验

我们在两个情况中分别进行了试验。Cooperative Navigation (CN) 中 N 个智能体须要分工分别去往 N 个目的地。Multi-Sensor Multi-Target Coverage (MSMTC) 中 N 个传感器须要分工覆盖M个移动的标的（图2）。

ICLR 2022 | 鉴于心智理论的多智能体通讯与分工

图2. 两种试验情况

试验表明，ToM2C 不仅使分工更为成功（图3），同时通讯价值远低于其他 SOTA 方法（图4）。我们还进一步测试了 ToM2C 的泛化性能。在 MSMTC 情况中，我们分别使用 ToM2C 和 HiT-MAC (baseline) 在4传感器5标的的设定下训练模型，然后将它们 zero-shot transfer 到不同数量的情况（2~10个传感器/2~10个标的）。结果表明 ToM2C 具有优秀的泛化性能（图5）。

ICLR 2022 | 鉴于心智理论的多智能体通讯与分工

图3. 在MSMTC情况中的进修曲线和消融试验

ICLR 2022 | 鉴于心智理论的多智能体通讯与分工

图4. CN（左）和MSMTC（右）情况中各模型的通讯带宽

ICLR 2022 | 鉴于心智理论的多智能体通讯与分工

图5. MSMTC情况中ToM2C和HiT-MAC的泛化性能对比，颜色越均匀则泛化性越好

04 总结

在这篇论文中我们鉴于心智理论设计了一种新颖的多智能体通讯与分工的机制 ToM2C。智能体通过猜测他人的查看和标的来辅助通讯抉择和个体决议。此外，一种减少冗余通讯的方法也被用于进一步提高通讯效率。试验表明这一机制能够促进分工，降低通讯价值并且具有良好的泛化性。

图文 | 王远非

Computer Vision and Digital Art (CVDA)

{{userData.name}}已认证

ICLR 2022 | 鉴于心智理论的多智能体通讯与分工

FOCS 2021 | 针对Insdel间隔的局部可解码编码的下界

Creator 面对面 | 如何突破 AI 实践中的资源限制与壁垒？

独家对话李岩：宿华、经纬、红点资金支持，第一个「生成式推荐」创业公司｜AI Pioneers

墙裂推荐！Karpathy大模型培训课LLM101n上线了，非常基础

baidu李彦宏：开源模型是智商税，闭源模型更强大、推理本钱更低

Midjourney 再更新！V6 模型支持外绘拓展与局部重绘了!

Python 3.11正式版来了，比3.10快10-60%，官方：这或许是最好的版本

无需训练，主动扩大的视觉Transformer来了

教授何恺明在MIT的第一堂课

用魔法打败魔法，电信公司已部署 AI 遏制诈骗电话