AI在线 AI在线

苹果联合推出 AI 交错推理方法,Qwen2.5 模型响应速度快 80%、准确率提高 19.3%

苹果公司携手杜克大学,提出交错推理(Interleaved Reasoning)的全新强化学习(Reinforcement learning,RL)方法,进一步提升大语言模型的推理能力。

科技媒体 marktechpost 昨日(5 月 29 日)发布博文,报道称苹果公司携手杜克大学,提出交错推理(Interleaved Reasoning)的全新强化学习(Reinforcement learning,RL)方法,进一步提升大语言模型的推理能力。

主流大语言模型在处理多步复杂问题时,常采用“先思考后回答”的长链式推理方式。然而,这种方法存在两大痛点:一是响应时间过长,难以满足实时交互需求;二是早期推理步骤出错可能导致最终答案偏差。

研究人员指出,与人类在对话中随时分享部分想法不同,模型往往等到推理全部完成才输出结果,导致效率不高。

苹果公司携手杜克大学,研发了交错推理技术,让模型在推理过程中交替进行内部思考和输出中间答案(sub-answer),从而提升速度与实用性。

https://www.marktechpost.com/wp-content/uploads/2025/05/Screenshot-2025-05-29-at-7.57.11%E2%80%AFPM-1024x556.png

交错推理基于强化学习(RL)框架,采用特殊的训练模板,包含 <think> 和 < answer > 标签,确保模型在达到关键推理节点时输出中间结果。

研究团队设计了基于规则的奖励机制,包括格式、最终准确率和条件性中间准确率,确保模型注重整体正确性。

测试中,交错推理在 Qwen2.5 模型(1.5B 和 7B 参数)上表现优异,响应速度提升超 80%,准确率提高高达 19.3%。

此外,该方法仅在问答(QA)和逻辑数据集上训练,却能在 MATH、GPQA、MMLU 等更具挑战性的基准测试中展现强大泛化能力。

研究还尝试了多种奖励策略,如全或无、部分积分和时间折扣奖励,其中条件性和时间折扣奖励效果最佳,显著优于传统方法。

AI在线附上参考地址

  • Interleaved Reasoning for Large Language Models via Reinforcement Learning

相关资讯

OpenAI 升级 o3-mini 模型思维链,提高 AI 推理透明度

OpenAI 公司今天(2 月 7 日)在 X 平台发布推文,宣布面向免费和付费用户更新 o3-mini 的思维链,并为付费用户更新 o3-mini-high 的思维链,更透明、更详细地展示模型的“推理”步骤以及得出答案的方式。
2/7/2025 7:20:02 AM
故渊

深推理模型崛起!Together AI融资3.05亿美元助推GPU需求

在 AI 行业,Together AI 最近宣布完成了一轮3.05亿美元的 B 轮融资,这一消息引起了广泛关注。 该公司的崛起与其新推出的深度理模型 DeepSeek-R1密切相关。 与最初的担忧相反,许行业专家认为,深度推理的进步并没有降低对基础设施的需求,反而在不断提升这一需求。
2/21/2025 10:28:00 AM
AI在线

AI 大战超级玛丽!Claude 3.7 封神:Gemini、GPT-4o 全军覆没,谁才是游戏界真王者?

谁是游戏界真王者?AI 竟向经典游戏《超级马力欧兄弟》发起挑战! 加州大学圣地亚哥分校 Hao 人工智能实验室传来惊人战报:在一场别开生面的 AI “马力欧” 大乱斗中,Anthropic 旗下的 Claude3.7模型 “一骑绝尘”,力压群雄,荣登 “最强 AI 马力欧” 宝座! 紧随其后的是同门师弟 Claude3.5,而谷歌 Gemini1.5Pro 和 OpenAI 的 GPT-4o 这两位 “AI 界大佬” 却意外 “翻车”,表现令人大跌眼镜!
3/4/2025 5:00:00 PM
AI在线
  • 1