AI在线 AI在线

AI是否知道什么时候该"思考"?Thinkless教会大模型何时该动脑筋

你是否曾经问过简单问题,却得到AI长篇大论的回答? 或者问复杂问题时,AI却草草了事? 今天我要和大家分享一项突破性研究,它让AI学会了"什么时候该思考,什么时候该直接回答"。

你是否曾经问过简单问题,却得到AI长篇大论的回答?或者问复杂问题时,AI却草草了事?今天我要和大家分享一项突破性研究,它让AI学会了"什么时候该思考,什么时候该直接回答"。

图片图片

1、AI的思考困境:要不要动脑子?

现代的大语言模型(LLM)已经能够通过"思维链"(Chain-of-Thought,简称CoT)进行复杂推理。简单来说,这种方法让AI像人类一样,先列出解决问题的步骤,再得出最终答案。

但这种方式存在一个明显问题:无论问题简单还是复杂,AI都一律使用详细推理。就像你问朋友"1+1等于几",他却认真地写下:"首先,我们有数字1,然后再加上数字1。根据加法定义,1+1=2。"——这显然太浪费时间了!

这种"过度思考"带来三大弊端:

(1)产生大量冗余token(AI输出的基本单位)

(2)增加内存占用

(3)显著提高计算成本

2、Thinkless:教会AI"适时思考"的利器

论文提出一个关键问题:AI能否学会根据任务复杂度和自身能力,决定何时该思考?

研究者开发了Thinkless框架,它巧妙地使用两个控制标记:表示简洁回答,表示详细推理。通过强化学习,AI可以自主决定对特定问题使用哪种回答模式。

3、Thinkless是如何工作的?

图片图片

这个框架通过两个阶段训练AI:

(1)热身蒸馏阶段

首先,模型从两位"专家"那里学习:一个擅长详细推理的模型和一个擅长简洁回答的模型。这个过程就像一个学生同时向两位风格不同的老师学习,掌握两种回答方式。

这个阶段建立了控制标记和回答格式之间的明确映射,为后续的强化学习提供多样化的输出基础。

(2) 解耦群体相对策略优化(DeGRPO)

这是Thinkless的核心创新。研究者发现,传统的优化方法会导致"模式崩溃"——模型可能完全倾向于使用其中一种推理模式,失去灵活性。

DeGRPO巧妙地将学习目标分解为两部分:

1)模式选择:控制模型如何根据当前准确率调整策略

2)准确率提升:改进回答内容,提高选定推理模式下的答案正确性

这种解耦设计避免了模式崩溃,使模型能够学习出准确的输出和情境敏感的推理策略。

3、效果:节省50%-90%的计算资源

经过训练,Thinkless模型学会了准确识别简单查询,并使用更高效的非思考模式回应。在多个基准测试中,它实现了令人印象深刻的结果:

1)在MATH-500、Minerva Algebra和GSM8K数据集上,长形式推理的使用减少了50%-90%

2)在更具挑战性的AIME任务上,模型自然地采用了更高比例的长形式推理

这意味着AI变得更加"聪明"——它知道什么时候详细思考,什么时候直接回答。这大大降低了推理成本,同时保持了任务性能。

图片图片

图片图片

图片图片

4、结语

研究者在训练过程中发现了一些有趣现象:

U形学习曲线

在训练初期,模型倾向于使用长链推理,因为这种方式通常能带来更高的准确率。但随着训练进行,短链回答的准确率逐渐提高,模型开始更多地探索简短推理的可行性。

这种行为表现为短链输出比例随时间的上升,许多短回答在训练后期达到完美准确率。同时,长链回答的准确率下降,这并非模型推理能力下降,而是因为更多困难问题被分配给了长链模式。

控制标记的权重影响

控制标记的权重决定了模式选择的学习速度。权重过高会导致模型过快更新策略,可能过早将某些样本分配到长链模式,而没有给短模式的性能提升留出足够空间。

实际案例展示

当Thinkless面对不同复杂度的问题时,它如何做出决策?

(1)简单问题:"计算123 + 456" 模式选择:短回答模式() 回答:"579"

(2)中等复杂度问题:"一个球的体积是多少,如果它的表面积是100平方厘米?" 模式选择:取决于模型对自身能力的评估 可能的短回答:"球的体积约为166.67立方厘米"

(3)复杂问题:"证明任意三角形的内角和等于180度" 模式选择:思考模式() 回答:详细的几何证明步骤...

Thinkless研究虽然取得了显著成果,但仍有进一步改进空间:

(1)改进热身阶段:探索更好的混合模型构建策略,如合并技术或轻量级微调方法

(2)扩展到更多领域:目前主要在数学问题上验证,未来可扩展到更广泛的领域

(3)更复杂的决策机制:开发能考虑更多因素的决策系统,如用户偏好、环境约束等

Thinkless研究向我们展示了AI系统中一个重要的思想:不是所有问题都需要同等深度的思考。这一点与人类思维极为相似——我们在日常生活中也会根据问题复杂度调整思考深度。

这项研究不仅大幅提升了AI系统的效率,更向我们揭示了构建更智能、更自然AI系统的方向。未来,AI将更懂得"张弛有度",在需要时深入思考,在可以时直接回答,从而提供更自然、更高效的用户体验。

论文标题:Thinkless: LLM Learns When to Think 

论文链接:https://arxiv.org/abs/2505.13379

相关资讯

Claude创始人:AI全面超越人类,只剩2-3年

在最新的对话访谈当中,Claude厂家Anthropic的CEO Dario Amodei谈论了他对于AI未来的看法。 他认为,AI确有可能在短期内替代部分人类的工作,但让AI与人类形成互补才是对生产力最有益的方式。 对于当下的年轻人,Amodei也给出了他的建议,鼓励其学会使用AI工具并培养批判思维能力。
1/23/2025 8:40:00 AM
量子位

浙大&通义全面评测智能体复杂任务规划能力,18主流大模型全不及格|ICLR2025

大模型智能体正在迅速发展,能力已不再局限于 API 调用。 诸如OpenAI的Operator和Anthropic的Computer Use等,能够像人类一样直接与界面交互,执行复杂操作。 在处理这类复杂任务的过程中,大模型智能体将问题分解为可执行的工作流(Workflow)是关键的一步。
2/8/2025 2:10:00 PM
量子位

攻破AI最强守卫,赏金2万刀!Anthropic新方法可阻止95% Claude「越狱」行为

最近,Anthropic安全研究团队「有点忙」。 本月4日,Anthropic在X上,邀请网友挑战新的AI防护系统。 两天后,Anthropic称:目前,没有人完全越狱新系统,因此提高了赌注。
2/17/2025 2:41:31 PM
新智元
  • 1