多智能体系统并非总能提高效率，谷歌与麻省理工研究揭示真相

作者：AI在线 2025-12-15 03:01

近日，谷歌研究院、谷歌 DeepMind 与麻省理工学院联合发布了一项研究，挑战了 “更多智能体意味着更好结果” 的传统观点。研究团队通过180项控制实验，探讨了多智能体系统在不同任务中的表现，结果显示性能波动极大，有的任务提升达到81%，而有的任务则下降了70%。研究表明，任务的类型对多智能体系统的效果有显著影响。

近日，谷歌研究院、谷歌 DeepMind 与麻省理工学院联合发布了一项研究，挑战了 “更多智能体意味着更好结果” 的传统观点。研究团队通过180项控制实验，探讨了多智能体系统在不同任务中的表现，结果显示性能波动极大，有的任务提升达到81%，而有的任务则下降了70%。

研究表明，任务的类型对多智能体系统的效果有显著影响。在一些并行任务中，例如金融分析，采用集中式的多智能体协调能够显著提升性能。不同的智能体能够独立分析销售趋势、成本结构和市场数据，然后将结果汇总，最终实现了近81% 的性能提升。

然而，在一些需要顺序进行的任务中，如 Minecraft 的规划任务，多智能体的设置反而会使性能下降39% 到70%。这是因为每个制作动作都会影响到后续动作所依赖的库存状态，任务之间的顺序依赖性使得信息在智能体之间传递时可能会丢失或被分割。

研究发现，影响多智能体系统性能的主要因素有三个:首先，任务涉及的工具越多，像网络搜索或编码等任务就越容易受到多智能体系统的负面影响。其次，当单个智能体的成功率超过45% 时，添加更多智能体通常会导致收益递减或负收益，协调成本会抵消增益。最后，错误的累积在多智能体环境中会加速，缺乏信息共享的情况下，错误会比单个智能体环境中快17倍。

划重点:
🌟 多智能体系统在并行任务中表现优异，但在顺序任务中却会显著降低效率。
🤖 当单个智能体的成功率超过45% 时，采用多智能体系统可能并不划算。
🔧 任务涉及的工具越多，多智能体系统的协调成本就越高，影响性能。

Minecraft变身AI竞技场:高中生打造创新模型评测平台

一位12年级学生建立了一个创新平台，让人们能够评估不同AI模型在Minecraft创作中的表现，为人工智能评测领域带来了新的视角。新基准测试方法应对传统评估局限性随着传统AI基准测试方法的局限性日益明显，开发者们开始寻找更具创造性的评估途径。对一群开发者而言，微软旗下的沙盒建造游戏Minecraft成为了理想选择。

3/21/2025 9:45:00 AM AI在线

火了！高中生用Minecraft做AI基准，用户看图投票决定大模型排名

偶然发现了一个很有趣的 AI 基准测试，点开链接，竟然是一个 MineCraft 作品投票页面？如图所示，这些作品都是 AI 完成的，灰色框中的文字对应的是提示词。黑框是可点击的选项 ——A、B 或者持平。

3/21/2025 5:32:00 PM 机器之心

斯坦福研究团队推出 SIRIUS：一种自我优化的多智能体推理框架

随着人工智能技术的发展，多智能体系统在各个领域的复杂任务处理能力越来越强。这些系统由多个专门的智能体组成，它们通过合作各自发挥特长，共同达成目标。这样的协作在复杂推理、编程、药物发现和安全保证等方面表现出色，因为智能体之间的结构化互动不仅提高了解决问题的效率，还可以相互校正，从而改进各自的输出。

2/13/2025 5:45:00 PM AI在线

​多智能体系统并非总能提高效率，谷歌与麻省理工研究揭示真相

相关资讯

Minecraft变身AI竞技场:高中生打造创新模型评测平台

火了！高中生用Minecraft做AI基准，用户看图投票决定大模型排名

斯坦福研究团队推出 SIRIUS：一种自我优化的多智能体推理框架

多智能体系统并非总能提高效率，谷歌与麻省理工研究揭示真相