AI在线 AI在线

策略改写「一战历史」!中科院开源全新博弈智能体框架DipLLM

围棋、德州扑克曾是AI崛起的试炼场,从AlphaGo到Libratus,人工智能不断刷新策略上限。 但接下来的战场更难——Diplomacy:一款融合协作与竞争的七人博弈游戏,单轮动作空间高达10的64次方,其策略建模复杂度前所未有! 为此,Meta曾推出智能体Cicero[Meta, Science 2022],结合人类数据与策略搜索,在该领域实现突破,但其方法高度依赖超大规模均衡搜索与重资源训练,难以扩展与迁移。

围棋、德州扑克曾是AI崛起的试炼场,从AlphaGo到Libratus,人工智能不断刷新策略上限。

但接下来的战场更难——Diplomacy:一款融合协作与竞争的七人博弈游戏,单轮动作空间高达10的64次方,其策略建模复杂度前所未有!

为此,Meta曾推出智能体Cicero[Meta, Science 2022],结合人类数据与策略搜索,在该领域实现突破,但其方法高度依赖超大规模均衡搜索与重资源训练,难以扩展与迁移。

现在,中科院自动化所的一项研究成果入选ICML 2025,提出了全新范式的博弈智能体框架——DipLLM,首次在Diplomacy中探索基于大语言模型微调的策略学习方法,显著降低资源需求,展现出卓越的策略能力与样本效率。

DipLLM构建在自回归分解框架之上,将高维联合动作建模任务转化为序列化子任务,并结合理论支持的均衡策略目标对LLM进行高效微调。

在仅使用Cicero 1.5%训练数据的情况下,便实现性能超越,展现出强大的策略能力与惊人的样本效率。

图片

论文地址:https://arxiv.org/pdf/2506.09655

开源代码:https://github.com/KaiXIIM/dipllm

论文第一作者为徐凯旋,中科院自动化所直博二年级;共同第一作者为柴嘉骏,中科院自动化所直博五年级;通讯作者为朱圆恒,中科院自动化所副研;研究方向为大模型强化学习后训练和智能体、多智能体强化学习、多具身智能。

研究背景

尽管围棋、国际象棋等经典博弈任务已被广泛研究,其动作空间一般仅在千级以内。 而在Diplomacy中,玩家需同时为多个单位做出决策,每回合联合动作组合高达10的64次方,导致策略学习与建模难度激增。

目前主流方法多依赖通过均衡搜索(equilibrium search)产生大规模博弈数据进行策略拟合。

例如,Cicero在训练阶段使用448张GPU并行生成数据,成本高昂且难以扩展。

近年来,大语言模型(LLM)展现出强大的泛化与推理能力,为复杂决策任务带来新可能。虽然基于prompt的方法可在部分任务可快速适配,但在Diplomacy等复杂博弈中,其策略生成能力仍受限于基础模型性能。

已有研究表明,对LLM进行微调(fine-tuning)能显著提升策略表现[Zhai et al., NeurIPS 2024]。

然而,在复杂博弈中,如何构建合理的训练框架与优化目标仍面临诸多挑战,尤其是:超大规模动作空间导致的决策障碍,以及复杂多智能体博弈下均衡策略的缺乏。

DipLLM

用于复杂博弈的自回归策略分解智能体

为了解决上述难题,研究人员提出一种适用于复杂博弈环境的 LLM 智能体,构建过程包括了三个关键步骤。

步骤1:基于大语言模型的自回归分解框架

在Diplomacy游戏中,玩家需要为最多34个单位同时选择动作,每个单位约有26种选择,导致联合动作空间呈指数级增长。

图片

为此,研究人员提出一种基于大语言模型的自回归因式分解框架,将复杂的联合决策任务拆解为一系列有序的单位动作选择(unit-action selection)子任务。

具体来说,将玩家的整体策略表示为:

图片

每一个子策略依赖于当前游戏状态s和前d-1个单位的动作,从而按顺序生成当前单位的动作图片

这一形式与 LLM 擅长的「下一个 token 预测」(next-token prediction)机制天然契合,使得模型能够逐步输出每个单位的行动决策。

在推理阶段,LLM 首先将原始游戏状态转化为文本格式s,然后针对每个单位,结合其编号与前序单位动作图片,构造提示(prompt)并生成动作图片,最终拼接为完整联合动作。

步骤2:自回归分解框架下的策略学习目标

为了有效引导微调过程,研究人员在自回归分解框架下重新定义了策略学习目标,以学习近似纳什均衡策略。

在传统方法,如piKL-Hedge[Jacob et al., ICML 2022],玩家的策略通常建模为集中式决策,玩家i的策略受到联合动作价值函数图片以及锚定策略图片共同引导:

图片

其中锚定策略图片是基于人类数据模仿学习得到的类人策略,避免搜索过程中过度偏离人类能理解的范围。

为了定义分解下的策略学习目标,研究人员将联合动作值图片分解为一系列单位级的子动作值图片,表示第d个单位的分解动作价值:

图片

基于这一分解,进而定义了如下单位级策略学习目标

图片

理论保证

研究人员进一步从理论角度分析了该策略学习目标在博弈环境中的性质,并提出了两个关键定理加以支撑:

  • 定理1(策略等价性)通过自回归分解策略学习目标推导出的联合策略

图片

其与原始策略分布π保持等价性,即在不损失策略表达能力的前提下,实现了更高效的建模。

  • 定理2(近似纳什均衡收敛)在两人零和博弈中,若双方均使用自回归分解策略学习目标迭代更新策略T轮,其平均策略将收敛到一个近似纳什均衡。

步骤3:微调大语言模型以逼近均衡策略目标

图片

为引导模型策略逼近均衡目标,研究人员构建了一套结合博弈交互与价值分解的数据生成与微调流程。

数据收集

通过让特定模型DipNet[Paquette et al., NeurIPS 2019]与Diplomacy环境交互,收集原始对局数据,并借助均衡搜索算法piKL-Hedge计算联合动作价值函数图片

为适应自回归分解策略结构,研究人员将联合动作价值进一步拆解为单位级的动作价值图片

接下来,将每个联合动作转化为文本格式,并进行拆解,提取出:

  • 当前单位的输入任务提示(由前d-1个单位的动作构成):图片
  • 当前单位的真值动作:图片

任务提示

图片与来自玩家视角的文本状态s一同构成大语言模型的输入,当前单位的真值动作图片则作为训练的标签。

最终,所有数据被整理为自回归分解格式的训练样本:

图片

其中:

  • s为玩家i视角下的文本游戏状态;
  • 图片:前d-1个单位动作组成的任务提示;
  • 图片:第d个单位的真值动作的文本表示;
  • 图片:该动作对应的单位级Q值。

损失函数

在上述构造的数据基础上,进而对大语言模型进行微调,以引导智能体策略对齐至前文定义的均衡策略学习目标。

该过程通过最小化大语言模型生成策略与目标策略之间的KL散度(Kullback-Leibler Divergence)来实现,形式化地,该优化目标可写作:

图片

进一步推导可得,该目标等价于最大化带权对数似然函数

图片

实验结果与分析

为评估DipLLM在Diplomacy环境中的策略能力,研究人员构建了一个由四个强基线模型组成的对手池,在每轮对局中随机选取两名智能体进行博弈。

通过大量对局实验,系统统计了包括SoS得分、胜率、生存率等在内的多个关键指标,以全面衡量智能体的策略表现。

实验结果显示,DipLLM 在所有五项测试指标上均优于当前最先进方法(SOTA)

图片

尽管仅使用了约Cicero训练数据的1.5%,DipLLM依然展现出更强的策略能力与博弈表现,充分体现了其在复杂博弈环境下的高样本效率与策略优化潜力。

总结与展望

研究人员提出了DipLLM,一种面向复杂博弈场景的大语言模型微调智能体。

通过引入自回归分解机制,将高维联合决策任务转化为一系列可控的顺序子任务,从根本上缓解了传统策略建模在动作空间维度上的瓶颈。

在此基础上,构建了具备理论保障的均衡策略优化目标,并通过微调引导模型策略逐步逼近纳什均衡。

尽管仅使用了Cicero训练数据的1.5%,DipLLM便实现超越,充分展现了大语言模型在多智能体博弈中的策略能力与样本效率。

这项工作为构建更通用、更高效、更可迁移的博弈智能体提供了新范式,也预示着基于LLM的策略学习将在更多复杂决策环境中释放潜力。

相关资讯

阿里云通义大模型新技术:MoE模型训练专家平衡的关键细节

本周,在阿里云通义千问 Qwen 团队提交的一篇论文中,研究人员发现了目前最热门的 MoE(混合专家模型)训练中存在的一个普遍关键问题,并提出一种全新的方法——通过轻量的通信将局部均衡放松为全局均衡,使得 MoE 模型的性能和专家特异性都得到了显著的提升。 论文:《Demons in the Detail: On Implementing Load Balancing Loss for Training Specialized Mixture-of-Expert Models》论文链接: 模型训练中的关键问题混合专家模型(MoEs)通过路由机制动态并稀疏地激活模型参数,使得能高效地增大模型参数规模。 基于 TopK 机制的稀疏激活会在训练中会遇到专家激活不均衡的问题:少数被频繁选择的专家会被优化得更多,进一步使得这些专家被更频繁地选择,最终导致只选择少数专家,造成剩余专家的冗余。
1/24/2025 2:19:21 PM
机器之心

快手发布DragAnything,拖动锚点精准控制视频物体和镜头运动,视频运动控制技术革命性更新

快手联合浙江大学、新加坡国立大学发布了DragAnything ,利用实体表示实现对任何物体的运动控制。 该技术可以精确控制物体的运动,包括前景、背景和相机等不同元素。 该项目提供了对实体级别运动控制的新见解,通过实体表示揭示了像素级运动和实体级运动之间的差异。
2/5/2025 10:30:00 AM
AIGC Studio

16张H100训26分钟,超越o1-preview!李飞飞等用1K样本,揭秘测试时Scaling

OpenAI o系列模型为何性能如此强大? OpenAI将他们的方法描述为使用大规模强化学习(RL),暗示使用了大量的数据。 最近大火的DeepSeek-R1模型也通过使用数百万个样本和多个训练阶段使用强化学习的方式,成功地达到了o1级别的性能。
2/6/2025 2:28:16 PM
新智元
  • 1