AI在线 AI在线

AI大佬曼宁转赞,MetaGPT团队首提「Atom of Thoughts」,原子化思考让4o-mini暴打推理模型?

AoT 作者团队来自 MetaGPT 开源社区。 第一作者为香港科技大学(广州)的滕枫蔚,通讯作者为 DeepWisdom 创始人兼 CEO 吴承霖。 团队还包括 DeepWisdom 研究员于兆洋、中国人民大学的石泉、香港科技大学(广州)的博士生张佳钇和助理教授骆昱宇。

AoT 作者团队来自 MetaGPT 开源社区。第一作者为香港科技大学(广州)的滕枫蔚,通讯作者为 DeepWisdom 创始人兼 CEO 吴承霖。团队还包括 DeepWisdom 研究员于兆洋、中国人民大学的石泉、香港科技大学(广州)的博士生张佳钇和助理教授骆昱宇。

图片

  • 论文标题:Atom of Thoughts for Markov LLM Test-Time Scaling

  • 论文地址:https://arxiv.org/abs/2502.12018

  • 项目地址:https://github.com/qixucen/atom

从 “长链推理” 到 “原子思维”:AoT 的诞生

大语言模型(LLM)近年来凭借训练时扩展(train-time scaling)取得了显著性能提升。然而,随着模型规模和数据量的瓶颈显现,测试时扩展(test-time scaling)成为进一步释放潜力的新方向。然而,无论是思维链(CoT)、思维树(ToT)等提示策略和推理框架,还是 OpenAI o1/o3 和 DeepSeek-R1 等推理模型,在推理时都过度依赖完整历史信息,导致计算资源浪费,同时冗余信息干扰有效推理。

具体来说,基于链的方法每进行一步推理,都需回顾已有的完整链条;基于树的方法则需要追踪祖先和同层节点;基于图的方法允许节点任意连接,进一步加重了历史信息依赖,导致计算复杂度上升。随着推理规模扩大,特别是以 OpenAI 的 o1/o3 和 DeepSeek-R1 为代表的推理模型,飙升的计算资源需求用于处理不断积累的历史信息。相比之下,人类推理倾向于将复杂问题拆分为独立的子问题,逐步解决并整合后续推理所需的信息,而不执着于保留每步细节。这种 “原子化思考” 启发了 AoT 的设计,使其专注当前状态的推理,摒弃历史依赖。

基于此观察,研究人员推出了 Atom of Thoughts(AoT),AoT 的核心洞察是:复杂推理可通过一系列轻量的 “原子问题” 实现,这些问题的执行仅依赖自身,摆脱历史信息依赖。AoT 将推理过程构建为马尔可夫过程(Markov process),通过不断进行状态转移,逐步简化问题并始终保持和原问题等价,最终求解轻量的原子问题来回答原问题。

图片

                                    AoT 论文 X 平台获得近 40 万浏览量,并获 NLP 巨匠、2024 冯诺伊曼奖得主 Christopher Manning 转发。

AoT 如何推理?

由拆解收缩双阶段组成的马尔可夫转移过程

图片

在马尔可夫过程中,状态从原问题 Q0 初始化,问题所需的推理时间可通过拆解生成的 DAG 结构复杂度反映。随着拆解和收缩迭代,当前状态 Qi 的推理时间逐步降低。

AoT 的一次状态转移由两个核心步骤组成:拆解(Decomposition)和收缩(Contraction)。这两个步骤共同完成一次状态转换,生成一个简化的问题作为下一轮拆解与收缩的 “原问题”。这一过程不断迭代,直到达到最大次数限制 —— 该限制由首次拆解生成的图的深度确定,以避免无限循环。

1. 拆解(Decomposition)

AoT 首先将当前问题分解为一个临时的、基于依赖关系的有向无环图(DAG)。在这个 DAG 中,节点代表子问题,边则表示它们之间的依赖关系。临时 DAG 提供的结构信息为后续收缩阶段奠定了基础,帮助消除因复杂结构带来的历史信息负担。

2. 收缩(Contraction)

拆解完成后,DAG 以规则化的方式区分子问题:无入边的节点被定义为独立子问题,有入边的节点被定义为依赖子问题。独立子问题的信息转化为已知条件,依赖子问题的描述则被整合为一个更简洁的独立问题,从而形成新的原子状态。这一状态的答案与前一状态的问题保持等价。由于马尔可夫过程从原问题初始化,所有状态均与原问题维持等价关系。

AoT 马尔可夫式的状态转移和原子化的状态表示极大地消除了对历史信息的依赖,将计算资源聚焦于当前的原子问题,提高推理的稳健性。

原子性带来即插即用

兼容一切框架和模型

图片

主实验结果,其中评估了三个变体:基础版本(AoT),作为插件与 FoT 集成的版本(AoT (d=1)+FoT (n=2)),以及一个计算密集型版本(AoT∗)

AoT 不仅是一个独立的推理框架,更是一个强大的插件。其每一次状态转移得到的原子状态中的问题都可以无缝嵌入现有的推理手段,无论是提示策略、推理框架,代理工作流还是多智能体代理系统,AoT 都能通过预处理简化输入问题,同时保持答案等价性,来优化后续推理效率和效果。

图片

在 MATH 数据集上的性能比较。绿色线条显示 FoT 在不同树数(2^k,k=0,1,2,…)下 scaling 的情况,而灰色趋势线(代表其他基线方法)则共同展示了性能提升与计算成本之间的权衡。AoT(d=1)结合 FoT(n=2)在保持较低计算需求的同时,达到了稍优于 FoT(n=8)的性能。

AoT 的原子性设计天然契合多跳推理场景的需求。QwQ-32B-Preview、DeepSeek-R1 和 o3-mini 等模型通过延长思维链展现出强大的推理能力。例如以 gpt-4o-mini 作为执行模型的 AFlow 在多跳任务中仍与 o3-mini 的直接求解存在差距。然而,AoT 通过原子化分解,使得即便仅以 gpt-4o-mini 这种短思维链模型作为推理基座,也能在性能上超越这些强大的长思维链模型。更进一步,当 o3-mini 被用作 AoT 的推理基座时,原子性设计的优势得以充分发挥,带来更加显著的性能提升。

图片

                                                   多跳问答任务中推理模型性能比较

开源与社区

图片AoT 延续了 MetaGPT 社区的开源精神,代码已公开于 GitHub。欢迎开发者与研究者尝试 AoT,无论是独立使用还是集成到现有方法,并持续关注后续研究和功能更新。

相关资讯

Agentic Deep Research新范式,推理能力再突破,可信度增加,蚂蚁安全团队出品

Agentic Deep Research新范式,推理能力再突破,可信度增加,蚂蚁安全团队出品

尽管 LLM 的能力与日俱增,但其在复杂任务上的表现仍受限于静态的内部知识。 为从根本上解决这一限制,突破 AI 能力界限,业界研究者们提出了 Agentic Deep Research 系统,在该系统中基于 LLM 的 Agent 通过自主推理、调用搜索引擎和迭代地整合信息来给出全面、有深度且正确性有保障的解决方案。 OpenAI 和 Google 的研究者们总结了 Agentic Deep Researcher 的几大优势:(1)深入的问题理解能力(Comprehensive Understanding):能够处理复杂、多跳的用户提问;(2)强大的信息整合能力(Enhanced Synthesis):能够将广泛甚至冲突的信息源整合为合理的输出;(3)减轻用户的认知负担(Reduced User Effort):整个 research 过程完全自主,不需要用户的过多干预。
8/27/2025 2:36:00 PM 机器之心
越疆科技批量交付全球首款“灵巧操作 + 直膝行走”具身智能人形机器人 Atom

越疆科技批量交付全球首款“灵巧操作 + 直膝行走”具身智能人形机器人 Atom

越疆科技在日本名古屋发布全球首款“灵巧操作 + 直膝行走”人形机器人Atom,并开启批量交付。Atom具备工业级±0.05mm重复定位精度,可完成高精度任务。同期发布的CR 30H协作机器人刷新同类产品性能记录。#机器人技术# #越疆科技#
6/30/2025 3:09:10 PM 浩渺
美国紧急启动"ATOM计划"应对中国开源AI崛起

美国紧急启动"ATOM计划"应对中国开源AI崛起

面对中国在开源人工智能领域的强势崛起,美国本周一正式启动名为"ATOM计划"的新战略,旨在重夺开源AI领域的全球领导地位。 "千问效应"引发美国警觉中国开源AI模型的快速发展成为美国科技界的紧迫威胁。 Hugging Face数据显示,阿里巴巴"通义千问"(Qwen)系列因性能强大且完全免费,正成为全球开发者的首选工具。
8/8/2025 7:47:01 AM AI在线