AI在线 AI在线

谷歌揭秘:Multi-Agent 推理时扩展才是未来

这里是一个专注于前沿AI和智能体的频道~谷歌 DeepMind 和 MIT 联合发了一篇论文,名叫 TUMIX(Tool-Use Mixture)。 大概就是说,Multi-Agent 才是 test-time- scaling的终极打开方式,可以以一半的成本,在HLE上,准确率从 21.6% 飙升到 34.1%,超越 Gemini-2.5-Pro Deep Research。 除此之外,他们还做了一个彩蛋,让Agent设计Agent,效果比人工设计的更牛~图片一个反常识Agent多样性 疯狂采样目前主流的推理时扩展方法是什么?

嘿,大家好!这里是一个专注于前沿AI和智能体的频道~

谷歌 DeepMind 和 MIT 联合发了一篇论文,名叫 TUMIX(Tool-Use Mixture)

大概就是说,Multi-Agent 才是 test-time- scaling的终极打开方式,可以以一半的成本,在HLE上,准确率从 21.6% 飙升到 34.1%,超越 Gemini-2.5-Pro Deep Research。

除此之外,他们还做了一个彩蛋,让Agent设计Agent,效果比人工设计的更牛~

图片图片

一个反常识

Agent多样性 > 疯狂采样

目前主流的推理时扩展方法是什么?

重复采样同一个最强模型,然后用多数投票选答案。

感觉也没毛病,但谷歌验证后,说:错了。

他们做了个实验:

  • 单Agent重复15次 vs 15个不同Agent各推理1次
  • 在相同的推理成本下,15个不同Agent的准确率和覆盖率都明显更高

为什么呢?

因为不同Agent采用不同的工具使用策略(纯文本推理、代码执行、网页搜索、双工具混合等),能探索更广阔的解空间。而单Agent重复采样,本质上还是在同一个思维框架里打转。

图片图片

他们还对比了三种工具组合:

  • Code_Text(只能用代码,不能搜索)
  • Search_Text(只能搜索,不能用代码)
  • Code_Search_Text(两者都能用)

结果,双工具Agent组的覆盖率和准确率都显著高于单工具组。

这说明什么?Code Interpreter 和 Search 不是互相替代的关系,而是互补的。

文本推理擅长语义和常识,代码擅长精确计算,搜索擅长获取最新知识。只有三者混合,才能发挥LLM的全部潜力。

TUMIX的核心机制

TUMIX的架构其实不复杂,核心就三步:

第一轮

15个不同Agent并行推理。

每个Agent有自己的工具使用策略(CoT、纯代码、搜索优先、代码搜索混合、引导式双工具等)

每个Agent最多可以调用工具5次,生成15个初步答案

第二轮及之后

答案共享 + 迭代优化:

把上一轮所有Agent的答案拼接到原问题后面,每个Agent基于原问题+其他Agent的答案生成新答案。

重复这个过程,直到LLM判断答案已收敛。

终止

LLM-as-Judge,用LLM自动判断何时停止迭代(最少2轮),最终通过多数投票选出答案

图片图片

这个设计既保留了多样性探索,又通过迭代优化提升了答案质量。

他们还发现了一个有趣的现象:随着迭代轮次增加,覆盖率(至少有一个Agent答对)会下降,但平均准确率会上升。

这说明Agent们在互相学习的过程中逐渐趋同,但也会误删掉一些正确答案。

所以,关键是找到那个——既充分迭代优化,又不过度收敛。

最后

来看看TUMIX的实战表现:

在Gemini-2.5-Pro上,HLE从21.6%提升到32.3%,GPQA从84.6%提升到87.9%, AIME 24&25,从87.3%提升到96.7%。

对比其他Test-time Scaling方法(Self-MoA、Symbolic-MoE、DEI、SciMaster、GSA),TUMIX在相同推理成本下,平均准确率都有明显优势。

图片图片

LLM可以自动设计更强的Agent?

论文里还有个彩蛋:他们尝试让 Gemini-2.5-Pro 自己设计新的Agent。

做法很简单:

  1. 给LLM看现有的15个人工设计的Agent
  2. 让它生成更多样、更高质量的Agent
  3. 从生成的25个新Agent中筛选出表现最好的15个

结果呢?

混合了人工设计和LLM生成的Agent组,性能比纯人工设计的还要高1.2%。

LLM生成的Agent长什么样?比如:

  • Plan-Verify-Refine:先规划、再执行(代码或搜索)、然后验证并优化
  • SearchThenCode:强制先搜索、再用代码
  • Debate-CrossExam:模拟提议者和怀疑者辩论,引导工具使用

这些策略和人工设计的完全不同,说明LLM已经具备了一定的Meta-Agent设计能力。

最后

OpenAI o1 和 DeepSeek R1 的路线是让单个模型深度思考,本质上还是在同一个推理框架内扩展。

TUMIX告诉我们,通过多样化的Agent和工具混合,可以用更低的成本达到更好的效果。

同时,LLM可以设计更强的Agent架构,这意味着,未来的AI系统可能会自己优化自己的工作流,而不需要人工调参。

相关资讯

AI Agent的工作原理和架构

大家好,我是人月聊 IT。 今天聊AI智能体的工作原理,既然谈AI工作原理,刚好就让AI自己来做回答。 参考提示词:如果要描述一个事物或一个系统的工作原理,我的核心思路就是要打开事物内部,看事物内部由哪些组件组成,这些组件之间是如何交互和协同的,最终对我展示了某种输出或行为特征。
8/4/2025 2:55:00 AM
何明路

准确率达90%,用户却疯狂弃用,一遇问题转人工,AI客服竟比电话语音还糟!大牛发文痛斥:能力≠采纳!四层架构让Agent无AI感

编辑 | 云昭出品 | 51CTO技术栈(微信号:blog51cto)上周,我和一位最近刚上线 AI Agent 的 PM 聊天。 指标看上去非常亮眼:89% 的准确率、毫秒级的响应、用户调研反馈积极。 但实际情况却很打脸,上线没多久,用户纷纷弃用了。
9/5/2025 1:06:00 PM
云昭

我在WAIC上看到的十大趋势

太热了,实在太热了。 你能想象吗? 一个AI行业展会,现在都有了一种明星演唱会的错觉。
7/30/2025 3:20:45 PM
白交
  • 1