AI是否知道什么时候该"思考"？Thinkless教会大模型何时该动脑筋

你是否曾经问过简单问题，却得到AI长篇大论的回答？或者问复杂问题时，AI却草草了事？今天我要和大家分享一项突破性研究，它让AI学会了"什么时候该思考，什么时候该直接回答"。

图片

1、AI的思考困境：要不要动脑子？

现代的大语言模型（LLM）已经能够通过"思维链"（Chain-of-Thought，简称CoT）进行复杂推理。简单来说，这种方法让AI像人类一样，先列出解决问题的步骤，再得出最终答案。

但这种方式存在一个明显问题：无论问题简单还是复杂，AI都一律使用详细推理。就像你问朋友"1+1等于几"，他却认真地写下："首先，我们有数字1，然后再加上数字1。根据加法定义，1+1=2。"——这显然太浪费时间了！

这种"过度思考"带来三大弊端：

（1）产生大量冗余token（AI输出的基本单位）

（2）增加内存占用

（3）显著提高计算成本

2、Thinkless：教会AI"适时思考"的利器

论文提出一个关键问题：AI能否学会根据任务复杂度和自身能力，决定何时该思考？

研究者开发了Thinkless框架，它巧妙地使用两个控制标记：表示简洁回答，表示详细推理。通过强化学习，AI可以自主决定对特定问题使用哪种回答模式。

3、Thinkless是如何工作的？

图片

这个框架通过两个阶段训练AI：

（1）热身蒸馏阶段

首先，模型从两位"专家"那里学习：一个擅长详细推理的模型和一个擅长简洁回答的模型。这个过程就像一个学生同时向两位风格不同的老师学习，掌握两种回答方式。

这个阶段建立了控制标记和回答格式之间的明确映射，为后续的强化学习提供多样化的输出基础。

（2）解耦群体相对策略优化（DeGRPO）

这是Thinkless的核心创新。研究者发现，传统的优化方法会导致"模式崩溃"——模型可能完全倾向于使用其中一种推理模式，失去灵活性。

DeGRPO巧妙地将学习目标分解为两部分：

1）模式选择：控制模型如何根据当前准确率调整策略

2）准确率提升：改进回答内容，提高选定推理模式下的答案正确性

这种解耦设计避免了模式崩溃，使模型能够学习出准确的输出和情境敏感的推理策略。

3、效果：节省50%-90%的计算资源

经过训练，Thinkless模型学会了准确识别简单查询，并使用更高效的非思考模式回应。在多个基准测试中，它实现了令人印象深刻的结果：

1）在MATH-500、Minerva Algebra和GSM8K数据集上，长形式推理的使用减少了50%-90%

2）在更具挑战性的AIME任务上，模型自然地采用了更高比例的长形式推理

这意味着AI变得更加"聪明"——它知道什么时候详细思考，什么时候直接回答。这大大降低了推理成本，同时保持了任务性能。

图片

4、结语

研究者在训练过程中发现了一些有趣现象：

U形学习曲线

在训练初期，模型倾向于使用长链推理，因为这种方式通常能带来更高的准确率。但随着训练进行，短链回答的准确率逐渐提高，模型开始更多地探索简短推理的可行性。

这种行为表现为短链输出比例随时间的上升，许多短回答在训练后期达到完美准确率。同时，长链回答的准确率下降，这并非模型推理能力下降，而是因为更多困难问题被分配给了长链模式。

控制标记的权重影响

控制标记的权重决定了模式选择的学习速度。权重过高会导致模型过快更新策略，可能过早将某些样本分配到长链模式，而没有给短模式的性能提升留出足够空间。

实际案例展示

当Thinkless面对不同复杂度的问题时，它如何做出决策？

（1）简单问题："计算123 + 456" 模式选择：短回答模式（）回答："579"

（2）中等复杂度问题："一个球的体积是多少，如果它的表面积是100平方厘米？" 模式选择：取决于模型对自身能力的评估可能的短回答："球的体积约为166.67立方厘米"

（3）复杂问题："证明任意三角形的内角和等于180度" 模式选择：思考模式（）回答：详细的几何证明步骤...

Thinkless研究虽然取得了显著成果，但仍有进一步改进空间：

（1）改进热身阶段：探索更好的混合模型构建策略，如合并技术或轻量级微调方法

（2）扩展到更多领域：目前主要在数学问题上验证，未来可扩展到更广泛的领域

（3）更复杂的决策机制：开发能考虑更多因素的决策系统，如用户偏好、环境约束等

Thinkless研究向我们展示了AI系统中一个重要的思想：不是所有问题都需要同等深度的思考。这一点与人类思维极为相似——我们在日常生活中也会根据问题复杂度调整思考深度。

这项研究不仅大幅提升了AI系统的效率，更向我们揭示了构建更智能、更自然AI系统的方向。未来，AI将更懂得"张弛有度"，在需要时深入思考，在可以时直接回答，从而提供更自然、更高效的用户体验。

论文标题：Thinkless: LLM Learns When to Think

论文链接：https://arxiv.org/abs/2505.13379

AI是否知道什么时候该"思考"？Thinkless教会大模型何时该动脑筋

1、AI的思考困境：要不要动脑子？

2、Thinkless：教会AI"适时思考"的利器

3、Thinkless是如何工作的？

（1）热身蒸馏阶段

（2）解耦群体相对策略优化（DeGRPO）

3、效果：节省50%-90%的计算资源

4、结语

U形学习曲线

控制标记的权重影响

实际案例展示

相关资讯

Agentic AI 的 17 种模式及其在下一代大规模 AI 系统中的价值

Claude创始人：AI全面超越人类，只剩2-3年

浙大&通义全面评测智能体复杂任务规划能力，18主流大模型全不及格｜ICLR2025

AI是否知道什么时候该"思考"？Thinkless教会大模型何时该动脑筋

1、AI的思考困境：要不要动脑子？

2、Thinkless：教会AI"适时思考"的利器

3、Thinkless是如何工作的？

（1）热身蒸馏阶段

（2） 解耦群体相对策略优化（DeGRPO）

3、效果：节省50%-90%的计算资源

4、结语

U形学习曲线

控制标记的权重影响

实际案例展示

相关资讯

Agentic AI 的 17 种模式及其在下一代大规模 AI 系统中的价值

Claude创始人：AI全面超越人类，只剩2-3年

浙大&通义全面评测智能体复杂任务规划能力，18主流大模型全不及格｜ICLR2025

（2）解耦群体相对策略优化（DeGRPO）