AI在线 AI在线

8卡32B模型超越o1预览版、DeepSeek V3,普林斯顿、北大提出层次化RL推理新范式

一.引言推理大语言模型(LLM),如 OpenAI 的 o1 系列、Google 的 Gemini、DeepSeek 和 Qwen-QwQ 等,通过模拟人类推理过程,在多个专业领域已超越人类专家,并通过延长推理时间提高准确性。 推理模型的核心技术包括强化学习(Reinforcement Learning)和推理规模(Inference scaling)。 主流的大模型强化学习算法,如 DPO、PPO、GRPO 等,通常需要在完整的思维链上进行微调,需要高质量数据、精确的奖励函数、快速反馈和在线迭代、以及大量的算力。

一.引言

推理大语言模型(LLM),如 OpenAI 的 o1 系列、Google 的 Gemini、DeepSeek 和 Qwen-QwQ 等,通过模拟人类推理过程,在多个专业领域已超越人类专家,并通过延长推理时间提高准确性。推理模型的核心技术包括强化学习(Reinforcement Learning)和推理规模(Inference scaling)。

主流的大模型强化学习算法,如 DPO、PPO、GRPO 等,通常需要在完整的思维链上进行微调,需要高质量数据、精确的奖励函数、快速反馈和在线迭代、以及大量的算力。当处理复杂任务,如高级数学和编程问题时,模型需要更细粒度的搜索、更精确的推理步骤和更长的思维链,导致状态空间和策略空间的规模急剧扩大,难度大幅上升。

Inference scaling 策略,不依赖训练,通过延长推理时间进一步提高模型的 Reasoning 能力。常见方法,如 Best-of-N 或者蒙特卡洛树搜索(MCTS),允许 LLM 同时探索多条推理路径,扩大搜索空间,朝着更有希望的方向前进。这些方法计算成本高,特别是步骤多或搜索空间大的时候。采样随机性使得确定最佳路径困难,且依赖手动设计的搜索策略和奖励函数,限制了泛化能力。

在此背景下,普林斯顿大学团队联合北京大学团队合作开发了名为 ReasonFlux 的多层次(Hierarchical)LLM 推理框架。

8卡32B模型超越o1预览版、DeepSeek V3,普林斯顿、北大提出层次化RL推理新范式

  • 文章链接:https://arxiv.org/abs/2502.06772
  • 开源地址:https://github.com/Gen-Verse/ReasonFlux

(该论文作者特别声明:本工作没有蒸馏或用任何方式使用 DeepSeek R1。)

基于层次化强化学习(Hierachical Reinforcement Learning)思想,ReasonFlux 提出了一种更高效且通用的大模型推理范式,它具有以下特点:

  • 思维模版:ReasonFlux 的核心在于结构化的思维模板,每个模版抽象了一个数学知识点和解题技巧。仅用 500 个通用的思维模板库,就可解决各类数学难题。
  • 层次化推理和强可解释性:ReasonFlux 利用层次化推理(Hierarchical Reasoning)将思维模板组合成思维轨迹(Thought Template Trajectory)、再实例化得到完整回答。模型的推理过程不再是 “黑盒”,而是清晰的展现了推理步骤和依据,这为 LLM 的可解释性研究提供了新的工具和视角,也为模型的调试和优化提供了便利。与 DeepSeek-R1 和 OpenAI-o1 等模型的推理方式不同,ReasonFlux 大大压缩并凝练了推理的搜索空间,提高了强化学习的泛化能力,提高了 inference scaling 的效率。 
  • 轻量级系统:ReasonFlux 仅 32B 参数,强化训练只用了 8 块 NVIDIA A100-PCIE-80GB GPU。它能通过自动扩展思维模板来提升推理能力,更高效灵活。

8卡32B模型超越o1预览版、DeepSeek V3,普林斯顿、北大提出层次化RL推理新范式

ReasonFlux-32B 在多个数学推理基准测试中表现出色,仅仅用了 500 个基于不同数学知识点的思维模版,就展现了其强大的推理能力和跻身第一梯队的实力。

二.ReasonFlux:

三大关键技术构建大模型推理新框架

ReasonFlux 的性能提升得益于其三大核心技术:

  1. 结构化的思维模板抽取:ReasonFlux 利用大语言模型从以往的数学问题中提取了一个包含大约 500 个结构化思维模板的知识库。每个模板都包含标签、描述、适用范围、应用步骤等信息,这些信息经过组织和结构化处理,为 LLM 的推理提供了元知识参考。这些模板覆盖了多种数学问题类型和解题方法,如不等式求解、三角函数变换、极值定理等,是 ReasonFlux 进行推理的基础。
  2. 多层次强化学习(Hierarchical RL)选择最优的 Thought Template Trajectory:该算法通过 Hierarchical Reinforcement Learning 训练一个 High-level 的 navigator,使其能够对输入问题进行拆解,转而求解多个更简单的子问题,根据子问题类型从模板库中检索相关的思维模板,并规划出最优的 Thought Template Trajectory。它可以看作是解决问题的 “路线图”,它由一系列的模板组合而成。这种基于 Hierarchical RL 的优化算法通过奖励在相似问题上的泛化能力,提升了推理轨迹的鲁棒性和有效性,使得 ReasonFlux 能够举一反三,为各种数学问题生成有效的思维模板轨迹。
  3. 新型 Inference Scaling 系统:该系统实现了结构化模板库和 inference LLM 之间的多轮交互。“Navigator” 负责规划模板轨迹和检索模板,inference LLM 负责将模板实例化为具体的推理步骤,并通过分析中间结果来动态调整轨迹,实现高效的推理过程。这种交互机制使得 ReasonFlux 能够根据问题的具体情况灵活调整推理策略,从而提高推理的准确性和效率。

(a)推理示例对比:

接下来我们来分析 ReasonFlux 在解决实际问题上相较于 o1-mini 的对比。

我们来看和 o1-mini 的对比

8卡32B模型超越o1预览版、DeepSeek V3,普林斯顿、北大提出层次化RL推理新范式

如上图可知,o1-mini 在面对这道难题时,尝试了多种策略,但均未能找到有效的突破口。它首先试图通过引入新变量和利用对称性来简化方程组,但收效甚微;接着又尝试假设变量相等来寻找特解,结果却得出了矛盾;随后,它试图用一个变量表示其他变量,并尝试平方去根号,但复杂的表达式使其望而却步;最后,它甚至想到了三角换元,但由于未能正确应用,最终只能无奈地放弃求解。

相比之下,ReasonFlux 的解题过程如下:

  1. 分析与规划:ReasonFlux 首先对题目进行分析,确定了解题的主要步骤:初步确定 k 值的范围、利用三角换元、化简方程组、求解 θ、计算目标值。这一步反映了 ReasonFlux 的问题分析和规划能力,为后续解题过程提供了基础。
  2. 模板化推理:ReasonFlux 随后依次应用了 “三角换元”、“化简方程组”、“求解 θ” 等模板,将复杂的方程组逐步简化,并最终求解出 θ 的值。每一步都依据模板的指导,旨在保证解题过程的准确性。
  3. 逐步推导:ReasonFlux 根据求得的角度值,计算出 (x, y, z) 的值,并最终计算出目标值8卡32B模型超越o1预览版、DeepSeek V3,普林斯顿、北大提出层次化RL推理新范式,从而得到 (m=1, n=32, m+n=33)。整个过程逻辑清晰,步骤明确,展示了 ReasonFlux 的规划和推理能力。

图片图片

(b) 新的 inference scaling law:

如上图所示,随着问题复杂度的增加,ReasonFlux 正确解答问题时所需的模板数量和交互轮数也相应增加。这表明 ReasonFlux 能够根据问题的难度动态调整推理策略,体现了其优秀的自适应能力。并且可以观察到,交互轮数的增长趋势略高于模板数量,这意味着规划能力的提升对解决复杂问题至关重要。

三.主流推理范式对比:

ReasonFlux  vs Best-of-N & MCTS

目前,提升 LLM 推理性能的主流方法通常依赖于增加模型规模和计算资源。例如,增加模型参数量、采用 Best-of-N 或蒙特卡洛树搜索 (MCTS) 等方法来扩大搜索空间以寻找更优解。然而,这些方法往往计算成本较高,且模型的推理过程难以解释。

ReasonFlux 采用了一种不同的方法,通过构建结构化的思维模板库和设计新的层次化强化学习算法,实现了一种更高效和可解释的推理方式。

传统的 Inference Scaling 方法,如 Best-of-N 和 MCTS,主要通过扩大搜索空间来提高准确率。但随着问题复杂度的增加,搜索空间呈指数级增长,导致计算成本显著上升。

在 ReasonFlux 的推理过程中,Navigator 与 Inference LLM 之间存在多轮交互。Inference LLM 根据 Navigator 给出的模板轨迹执行推理步骤后,Navigator 会对执行结果进行评估图片。如公式图片所示,根据评估结果,Navigator 会动态调整模板轨迹图片,例如修改当前步骤的模板、添加或删除步骤等。这种迭代优化的机制使得 ReasonFlux 能够根据问题的具体情况灵活调整推理策略,从而提高推理的准确性和效率。

ReasonFlux 通过引入结构化的思维模板,将搜索空间从 “原始解空间” 缩小到 “模板空间”,从而降低了搜索的难度和成本。如果说传统的推理范式是 “大海捞针”,那么 ReasonFlux 则是 “按图索骥”。这些模板并非简单的规则堆砌,而是经过提炼和结构化处理的知识模板,它们将复杂的推理过程分解为一系列可复用的步骤,从而提升了推理的效率和准确率。

图片图片

如上图所示,随着问题难度的提升,Best-of-N 和 MCTS 的探索成本(例如采样轨迹数量和迭代次数)显著增加,而 ReasonFlux 的探索成本(交互轮数)则保持在较低水平且相对稳定。这说明 ReasonFlux 能够更高效地利用已有的知识模板来解决问题,而不需要像 Best-of-N 和 MCTS 那样进行大量的试错和探索。这得益于 ReasonFlux 的结构化模板库和模板轨迹规划机制,使其能够在更小的搜索空间内找到正确的推理路径。

四.训练及推理框架介绍

下图展示了 ReasonFlux 的训练框架,其核心在于利用结构化的思维模板库和基于思维模板轨迹奖励的层次化强化学习算法,训练出一个能够进行高效推理的大模型。整个训练过程可以分为两个主要阶段:结构化知识学习和思维模板轨迹优化。

8卡32B模型超越o1预览版、DeepSeek V3,普林斯顿、北大提出层次化RL推理新范式

1. 结构化知识学习阶段:这个阶段的目标是让模型学习思维模板库中蕴含的结构化知识。这些结构化的 Thought template 格式如下图所示:

8卡32B模型超越o1预览版、DeepSeek V3,普林斯顿、北大提出层次化RL推理新范式

然后,我们利用这些结构化模板数据 图片对一个基础 LLM 进行微调,得到模型图片。训练的目标是让模型能够根据模板的名称和标签,生成对应的描述和适用范围 。通过这个阶段的训练,模型学习到了模板库中蕴含的丰富知识,并具备了初步的模板理解和应用能力。

2. 模板轨迹优化阶段:这个阶段的目标是训练模型生成有效的模板轨迹,即针对特定问题,选择合适的模板并进行排序,形成解决问题的 “路线图”。我们利用新颖的基于 Thought Template Trajectory 的 Hierarchical RL 算法来实现这一目标。在这个阶段,我们使用 图片模型针对输入问题 图片生成多个候选的 high-level 思维模板轨迹图片。每个轨迹由一系列步骤 图片组成,每个步骤都关联到一个特定的模板。为了评估轨迹的质量,我们构建了一组与输入问题 图片相似的问题集图片。然后,我们利用 inference LLM 图片根据模板轨迹对这些相似问题进行具体的解答,并计算平均准确率作为轨迹的奖励图片。基于这个奖励信号,我们构建了优化样本对图片,其中图片。然后,我们利用这些样本对,通过 DPO 对 图片进行进一步优化,得到最终的 navigator 模型图片,也就是我们的 ReasonFlux 模型。 

通过这两个阶段的训练,ReasonFlux 模型不仅学习到了结构化的模板知识,还学会了如何针对特定问题选择和组合模板,形成有效的推理路径。这种能力使得 ReasonFlux 能够高效地解决各种复杂的数学推理问题。

下图是 ReasonFlux 的推理框架。其核心在于 navigator、inference LLM 和结构化模板库之间的多轮交互。这种交互机制使得 ReasonFlux 能够根据问题的具体情况灵活调整推理策略,从而提高推理的准确性和效率。

8卡32B模型超越o1预览版、DeepSeek V3,普林斯顿、北大提出层次化RL推理新范式

以下是 ReasonFlux 的推理流程:

8卡32B模型超越o1预览版、DeepSeek V3,普林斯顿、北大提出层次化RL推理新范式

通过这种 navigator 引导、inference LLM 执行、模板库支持、动态调整轨迹的多轮交互机制,ReasonFlux 能够高效地解决各种复杂的数学推理问题。这种推理框架不仅提高了推理的准确性和效率,还增强了模型的可解释性,因为我们可以清晰地追踪模型的推理过程和依据。

五.数学推理数据集上的表现:

小模型媲美大模型,展现未来应用潜力

ReasonFlux 在 MATH、AIME 2024、AMC 2023、OlympiadBench 和 Gaokao En 2023 等多个具有挑战性的数学推理数据集上进行了测试,并取得了良好的结果。

ReasonFlux-32B 在这些数据集上的表现处于前列,与其他先进模型相比具有竞争力。如下表所示,在 MATH 数据集上,ReasonFlux-32B 的准确率为 91.2%;在 AIME 2024 数据集上,ReasonFlux-32B 的准确率为 56.7%。这些结果表明 ReasonFlux 框架具有有效性。更重要的是,它表明较小规模的模型通过优化推理框架,可以达到甚至在某些情况下超越较大模型的性能。

ReasonFlux 还可用于不同大小(1.5B, 7B 和 32B)的基础模型,并且都能获得巨幅的推理效果提升,足见其通用性和泛化性。

8卡32B模型超越o1预览版、DeepSeek V3,普林斯顿、北大提出层次化RL推理新范式

ReasonFlux 的成功不仅限于数学推理领域,其背后的核心思想 —— 结构化思维模板和模板轨迹 —— 具有广泛的应用潜力。未来,ReasonFlux 有潜力被应用于更多领域,如代码生成,医疗诊断,具身智能等多个领域。

六.作者介绍

杨灵:北大在读博士,普林斯顿高级研究助理,研究领域为大语言模型和扩散模型。

余昭辰:新加坡国立大学在读硕士,北京大学 PKU-DAIR 实验室科研助理,研究领域为大语言模型和扩散模型。

崔斌教授:崔斌现为北京大学计算机学院博雅特聘教授、博士生导师,担任计算机学院副院长、数据科学与工程研究所所长。他的研究方向包括数据库系统、大数据管理与分析、机器学习 / 深度学习系统等。

王梦迪教授:王梦迪现任普林斯顿大学电子与计算机工程系终身教授,并创立并担任普林斯顿大学 “AI for Accelerated Invention” 中心的首任主任。她的研究领域涵盖强化学习、可控大模型、优化学习理论以及 AI for Science 等多个方向。

相关资讯

追平满血版o1的国产多模态模型终于来了!训练细节全部公开

春节前最后一周,能媲美 Open AI 满血版 o1(Full Version,而非 preview)的模型终于出现了! 刚刚,月之暗面公布了他们的 Kimi k 系列模型最新版本 ——k1.5 多模态思考模型。 新模型在数学、代码、多模态推理能力等方面全面对标 Open AI 满血版 o1,而且是 OpenAI 之外首个多模态 o1。
1/21/2025 8:00:00 AM
机器之心

Anthropic CEO惊人预警:27年AI超越人类!Claude今年更新全剧透

失踪人口终于回归了! 在互联网消失一段时间后,Anthropic首席执行官Dario Amodei一上来就接受了WSJ、CNBC两家采访,连曝AI大瓜。 他坚定地认为,「2027年之前,AI完全可以超越人类智能!
1/23/2025 9:00:00 AM
新智元

中国AI太强,Meta工程师吓疯?自曝疯狂熬夜复制DeepSeek,天价高管心虚了

今天,Meta员工在匿名社区TeamBlind上的一个帖子,在业内被传疯了。 DeepSeek,真实地给了美国人亿点点「震撼」。 DeepSeek R1是世界上首个与OpenAI o1比肩的AI模型,而且与o1不同, R1还是开源模型「Open Source Model」,比OpenAI还Open!更有人曝料,DeepSeek还只是个「副项目」,主业根本不是搞大模型!
1/24/2025 1:20:00 PM
新智元

颠覆LLM格局!AI2新模型OLMo2,训练过程全公开,数据架构双升级

最近,非营利研究机构AI2上新了OLMo2系列模型,他们称之为「迄今为止最好的完全开源模型」。 OLMo 2系列包含7B和13B两个型号,相比如Llama 3.1和Qwen 2.5等开源模型达到了同等甚至更优的性能,同时FLOPS计算量更少,在性能和计算效率之间取得了极佳的平衡,为开源LLM开辟了新的可能性。 不同大小开源模型的性能对比,OLMo 2的表现优于同参数规模模型在多个下游任务上,OLMo 2展现出了强大的泛化能力和适应能力。
1/24/2025 3:40:00 PM
新智元

DeepSeek-R1持续震撼硅谷:跻身竞技榜前三,创始人梁文锋采访被“拿放大镜”看

“神秘东方力量”DeepSeek给硅谷带来的影响,还在不断泛起涟漪——刚刚,DeepSeek-R1跻身大模型竞技榜前三。 以开源、便宜20倍的“身价”与ChatGPT-4o(2024.11.20)并列。 在复杂提示词/风格控制榜单上,R1位列第一。
1/26/2025 8:00:00 AM
量子位

在2025年初,浅浅聊一聊世界模型 World Models

Update 1月10日:感谢评论区补充world model在RL中的定义! 感觉在RL中的定义,world model是针对一个具体子任务的模型,最近上述公司提到的World Model的尺度似乎更大、更加通用,更多从:Language Generation Model (ChatGPT)-Image Generation Model(StableDiffusion)-Video/3D Geneartion Model (二者各有侧重因此平级)-World Generation Model(同时具备时序和空间序建模)这么一个趋势。 当然这个World似乎想要包容一切,于是也并不清晰到底是什么样的表征:是否是video sequence?
1/27/2025 9:37:33 AM
原野寻踪

鄂维南李航领衔造高级论文搜索Agent,召回率和精准性超谷歌学术等,磕盐党狂喜

中科院院士鄂维南、字节AI实验室总监李航领衔,推出高级论文搜索Agent。 名为PaSa,两个Agent分别执行多轮搜索和判断论文是否满足查询要求的任务,模仿人类复杂学术搜索行为。 现在就有Demo可玩。
1/27/2025 9:00:00 AM
量子位

免费功能卷翻付费版ChatGPT,欧洲AI新贵叫板OpenAI

“欧洲OpenAI”Mistral AI有新动作了! Le Chat(法语“猫”)全新升级,官方自称它是“您生活和工作的终极AI助手”。 从今天开始,Le Chat上线移动端,iOS和Android都支持,不久也将对企业私有基础设施开放。
2/8/2025 8:50:00 AM
量子位

马克龙豪掷1090亿开欧洲「星际之门」,Mistral狂飙登顶法国APP榜首!

就在刚刚,Le Chat登顶法国免费APP榜首! 在效率榜中,ChatGPT屈居第二,DeepSeek仅排第三在美国效率榜排名35(ChatGPT第一,DeepSeek第二)欧洲开发者们一片欢腾:恭喜Mistral AI,让欧洲的AI竞赛中终于(在欧洲)有了一席之地。 之前,不管是OpenAI还是DeepSeek,都光芒太盛。
2/10/2025 12:00:25 PM
新智元

Claude 4要来了?Anthropic发布38页经济指数报告,43%人类工作正被AI取代!

Claude 3.5 Opus无了,Anthropic本周可能会提前放出Claude 4。 网友爆料称,除了Claude 4,还有推理模型也将首亮相,评分全面超越o3。 Anthropic已经沉寂太久了,去年曾被传出内部模型研发受阻。
2/11/2025 1:00:00 PM
新智元

Claude团队:用400万条对话分析AI对经济的长期影响

基于400万条Claude真实对话数据,Anthropic重磅发布全新报告! 在今天,哪些职业用AI最多? 他们都用AI干什么?
2/12/2025 9:10:00 AM
量子位

Karpathy新实验火了!一个「表情」占53个token,DeepSeek-R1苦思10分解谜失败

一个😀,竟然要占用53个token? ! 最近,AI大佬Karpathy在X上分享了这一有趣现象。
2/13/2025 1:00:00 PM
新智元

文心一言全面免费了,深度搜索功能同时上线,第一手实测在此

一天内,OpenAI、百度两家AI大厂同时打出免费牌! 几天前被爆出文心5.0消息后,今天百度突然宣布:文心一言将于4月1日零时起,全面免费!  所有PC端和APP端用户均可体验文心系列最新模型。
2/14/2025 9:12:00 AM
量子位

1秒锁定7500万债务黑洞,OpenAI o系列模型7大实际应用案例

今早5点,OpenAI分享了o系列模型的7大实际应用场景,包括处理模糊任务、从海量信息中提取关键信息、复杂文档推理与决策、多流程AIAgent、视觉推理、代码审查以及性能评估。 在这些实际案例中,一家金融分析平台通过o系列模型成功找出了影响收购的关键变更条款,帮助公司节省了7500万美元。 此外,还解读了o系列推理模型与效率型GPT系列模型的区别,帮助你在实际应用中该如何高效选择这两种模型。
2/14/2025 10:44:13 AM
AIGC开放社区

微软开放3.1T token高质量数据!通用/代码/数学/问答,全领域超越开源

过去几年,大型语言模型(LLMs)已经成为人工智能研究的一个关键领域,从大规模的自然语言数据中学习,使其能够以极高的准确率执行各种与语言相关的任务。 得益于模型扩展性方面的进展,研究人员能够创建具有前所未有复杂度的模型。 当前的研究趋势是致力于构建更大、更复杂的模型,具有数百/数千亿个参数,但大型语言模型的训练需要海量的训练数据,尤其随着模型参数量的上升,对于优质数据数量的要求也将进一步加大,优质数据量的缺乏极大限制了模型能力的进一步增长。
2/18/2025 3:03:58 PM
新智元

马斯克“地表最强”Grok 3炸场,竞技场首超1400分

刚刚,马斯克xAI的Grok 3终于亮相(超300万人次围观)! 一出道即巅峰,竞技场(lmarena.ai)官方给出了这样的评价:Grok 3是首个突破1400分的模型,并且在所有类别中排名第一。 而且,Grok 3还是首个在10万张(后扩展到20万)H100集群上训练出的模型。
2/18/2025 3:09:07 PM
量子位

英伟达CEO老黄预言:未来,每个人都有自己的AI导师!

AI导师时代来临,学习门槛将大幅降低! 在近日接受《财富》杂志采访时,黄仁勋直言:「AI的迅猛发展正在彻底改变知识获取的方式。 」以往学习一门新技能或进入陌生领域,需要投入大量时间和精力,而AI导师的出现让这一切发生了翻天覆地的变化。
2/19/2025 2:02:11 PM
新智元

出人意料!DeepSeek-R1用的GRPO其实没必要?规模化强化学习训练用PPO就够了

DeepSeek-R1 非常热门,而在其公布的训练配方中,GRPO(Group Relative Policy Optimization)非常关键,是 DeepSeek-R1 核心的强化学习算法。 PPO 与 GRPO 的对比,来自论文《DeepSeekMath: Pushing the Limits of Mathematical Reasoning in Open Language Models》相较于 PPO,GRPO 去掉了价值模型,而是通过分组分数来估计基线,从而可极大减少训练资源。 DeepSeek-R1 技术报告中写到:「具体来说,我们使用 DeepSeek-V3-Base 作为基础模型,并采用 GRPO 作为强化学习框架来提高模型的推理性能。
2/21/2025 12:24:14 PM
机器之心
  • 1