AI在线 AI在线

NeurIPS 2025 | 中科大、港中深、通义千问联合发布CoRT:仅30个样本教会大模型高效推理,token消耗降低50%

近年来,以 OpenAI-o1、Qwen3、DeepSeek-R1 为代表的大型推理模型(LRMs)在复杂推理任务上取得了惊人进展,它们能够像人类一样进行长链条的思考、反思和探索。 然而,这些模型在面对精确的数学计算时,仍然会「心有余而力不足」,常常出现效率低下甚至算错的问题。 一个直观的解决方案,是为模型配备代码解释器(Code Interpreter)等计算工具。
图片

近年来,以 OpenAI-o1、Qwen3、DeepSeek-R1 为代表的大型推理模型(LRMs)在复杂推理任务上取得了惊人进展,它们能够像人类一样进行长链条的思考、反思和探索。然而,这些模型在面对精确的数学计算时,仍然会「心有余而力不足」,常常出现效率低下甚至算错的问题。

一个直观的解决方案,是为模型配备代码解释器(Code Interpreter)等计算工具。但这引入了一个更深层次的挑战,也是当前领域面临的关键瓶颈:

  1. 认知冲突:模型内部基于概率的、模糊的「思考」,与外部工具返回的确定性的、精确的「知识」之间存在冲突,导致模型陷入无意义的反复验证和「纠结」。

  2. 行为低效:模型倾向于先用自然语言进行冗长的推演,再用代码验证,造成「延迟计算」;或者不信任代码返回的结果,进行不必要的「结果不信任」和手动核算,白白浪费了大量计算资源(tokens)。

  3. 数据稀缺:如何为这种新型的「模型 - 工具」协同推理模式,合成高质量的训练数据,本身就是一个开放性难题。

那么,如何让大模型学会「何时」以及「如何」高效地使用工具,将自身的抽象推理能力与工具的精确计算能力完美结合?

来自中国科学技术大学、香港中文大学(深圳)、通义千问的联合研究团队给出了他们的答案:CoRT (Code-Optimized Reasoning Training) —— 一个旨在教会大型语言模型高效利用代码工具进行推理的后训练(post-training)框架。该框架通过创新的数据合成策略和多阶段训练流程,显著提升了模型的数学推理能力和效率。

图片

目前,该论文已被 NeurIPS 2025 接收,相关模型和代码均已开源。

图片
  • 论文链接:https://arxiv.org/abs/2510.20342

  • 项目仓库:https://github.com/ChengpengLi1003/CoRT

方法核心:从「数据冷启动」到「智能体调优」的三步走

CoRT 框架的核心思想是,通过高质量的数据和精细化的训练,重塑模型与工具的交互模式,使其从低效的「验证」思维转向高效的「计算」思维。

图片

1.Hint-Engineering (提示工程):数据冷启动的艺术

  • 挑战:高质量的「模型 - 工具」交互数据极度稀缺。简单地提示模型使用代码,会产生大量冗长、低效的推理轨迹。

  • 核心思路:研究团队首次提出了一种名为「提示工程」(Hint-Engineering) 的全新数据合成策略。其核心是在推理路径的关键决策点,策略性地注入引导性提示,从而纠正模型的低效行为。

    a.当模型试图手动进行复杂计算时,注入提示:「这看起来很繁琐,我们可以用 python 代码来简化推理」,引导其立即计算。

    b.当模型得到代码结果后试图手动验证时,注入提示:「我们不需要怀疑 python 计算的准确性」,打消其结果不信任。

  • 效果:遵循「数据质量远重于数量」的原则,团队仅手动标注了 30 个高质量样本,就为后续训练奠定了坚实基础。这种方法生成的推理轨迹不仅正确,而且极其简短高效。

图片

2.多阶段训练流程:精细化能力塑造

在高质量数据的基础上,CoRT 设计了一套包含 SFT、RFT 和 RL 的完整训练管线:

  • 监督微调 (SFT):使用 30 个「提示工程」样本进行初步微调,让模型快速学习到高效交互的基本模式。

  • 拒绝采样微调 (RFT):让初步微调后的模型生成大量解答,并自动过滤掉错误的、或存在「延迟计算」「结果不信任」等不良行为的轨迹,只保留优质轨迹用于进一步训练,强化模型的「好品味」。

  • 强化学习 (RL):将模型视为一个智能体 (Agent),将代码解释器视为环境 (Environment)。通过精心设计的奖励函数(同时奖励最终答案的准确性和代码执行的成功率),让模型在与环境的交互中,通过试错自主学习最优的工具使用策略。这一步极大地提升了模型的稳定性和上限,尤其对于小尺寸模型效果显著。

实验结果:性能与效率的双重飞跃

图片

CoRT 框架在 5 个极具挑战性的数学推理基准上进行了全面评估,结果证明了其卓越的性能。

  • 性能显著提升:在同等规模的开源模型基础上,CoRT 为 DeepSeek-R1-32B 带来了 4% 的绝对精度提升,为 1.5B 模型带来了高达 8% 的绝对提升,效果媲美乃至超越了许多依赖更多数据训练的模型。

  • 效率革命性优化:与纯自然语言推理的基线模型相比,CoRT 将 32B 模型的 token 消耗降低了约 30%,1.5B 模型更是降低了惊人的 50%。这意味着用一半的计算成本,就能达到更高的准确率。

  • 重塑代码使用行为:分析显示,传统方法促使模型将代码主要用于「验证」(占比 68.2%),而 CoRT 成功地将模型行为转变为以「计算」为核心(占比 51.1%),从根本上提升了推理效率。

  • 强大的泛化能力:在完全没见过的化学问题(OOD)测试中,CoRT 训练的模型不仅性能更优,还能自发地发现并使用一个从未在训练中出现过的专业工具库(RDKit),使用率高达 81.3%,展现了真正的智能涌现。

意义与展望

CoRT 框架的提出,为解决大型语言模型在精确推理领域的短板提供了一条高样本效率、高计算效率的全新路径。

它证明了,通过精巧的数据设计和先进的智能体强化学习框架,我们不仅能教会模型「使用」工具,更能教会它们「高效、智能」地 与工具协作。

这项工作展示了构建更强大、更可靠、更经济的 AI 智能体系统的巨大潜力,为 AI 在科学发现、教育辅助、工程设计等需要精确推理的领域的落地应用,扫清了一大障碍。未来,将此框架扩展到更多样化的工具和更复杂的任务场景,将是该方向激动人心的研究路径。

作者介绍

核心作者:

  • 唐正阳,香港中文大学(深圳)博士生,参与了 Qwen3 模型的开发,提出了 MathScale、ORLM 等代表性工作。

  • 李成鹏,中国科学技术大学博士生,参与了 Qwen2.5、QwQ、Qwen3 等模型的开发,提出了 Mugglemath, START 等代表性工作。

  • 李子牛,香港中文大学(深圳)博士生,提出了 ReMax、Knapsack RL 等代表性工作。

相关资讯

X上63万人围观的Traning-Free GRPO:把GRPO搬进上下文空间学习

年初的 DeepSeek-R1,带来了大模型强化学习(RL)的火爆。 无论是数学推理、工具调用,还是多智能体协作,GRPO(Group Relative Policy Optimization)都成了最常见的 RL 算法。 GRPO 的核心思路很简单却强大:对同一个问题,同时生成多条解答路径(rollout)给这些路径打分,比较组内优劣再根据优势信号来更新模型参数,让模型越来越偏好高质量解法这种「多路径并行 组内优势」的机制,虽然比传统 PPO 等方法更加简洁,但仍然需要优化模型参数,💰 太贵了!
10/22/2025 5:02:00 PM
机器之心

从想太多到想不透?DeepSeek-R1等长推理模型也存在「思考不足」问题

AIxiv专栏是AI在线发布学术、技术内容的栏目。 过去数年,AI在线AIxiv专栏接收报道了2000多篇内容,覆盖全球各大高校与企业的顶级实验室,有效促进了学术交流与传播。 如果您有优秀的工作想要分享,欢迎投稿或者联系报道。
2/15/2025 7:51:00 PM
机器之心

200美金,人人可手搓QwQ,清华、蚂蚁开源极速RL框架AReaL-boba

由于 DeepSeek R1 和 OpenAI o1 等推理模型(LRM,Large Reasoning Model)带来了新的 post-training scaling law,强化学习(RL,Reinforcement Learning)成为了大语言模型能力提升的新引擎。 然而,针对大语言模型的大规模强化学习训练门槛一直很高:流程复杂、涉及模块多(生成、训练、奖励判定等),为实现高效稳定的分布式训练带来很多挑战;R1/o1 类推理模型的输出长度很长(超过 10K),并且随着训练持续变化,很容易造成显存和效率瓶颈;开源社区缺乏高质量强化学习训练数据,以及完整可复现的训练流程。 本周,蚂蚁技术研究院和清华大学交叉信息院吴翼团队,联合发布了训练速度最快最稳定的开源强化学习训练框架 AReaL(Ant Reasoning RL),并公开全部数据和完成可复现的训练脚本。
3/31/2025 10:52:00 AM
机器之心