苹果联合推出 AI 交错推理方法，Qwen2.5 模型响应速度快 80%、准确率提高 19.3%

作者：故渊 2025-05-30 02:45

苹果公司携手杜克大学，提出交错推理（Interleaved Reasoning）的全新强化学习（Reinforcement learning，RL）方法，进一步提升大语言模型的推理能力。

科技媒体 marktechpost 昨日（5 月 29 日）发布博文，报道称苹果公司携手杜克大学，提出交错推理（Interleaved Reasoning）的全新强化学习（Reinforcement learning，RL）方法，进一步提升大语言模型的推理能力。

主流大语言模型在处理多步复杂问题时，常采用“先思考后回答”的长链式推理方式。然而，这种方法存在两大痛点：一是响应时间过长，难以满足实时交互需求；二是早期推理步骤出错可能导致最终答案偏差。

研究人员指出，与人类在对话中随时分享部分想法不同，模型往往等到推理全部完成才输出结果，导致效率不高。

苹果公司携手杜克大学，研发了交错推理技术，让模型在推理过程中交替进行内部思考和输出中间答案（sub-answer），从而提升速度与实用性。

交错推理基于强化学习（RL）框架，采用特殊的训练模板，包含 <think> 和 < answer > 标签，确保模型在达到关键推理节点时输出中间结果。

研究团队设计了基于规则的奖励机制，包括格式、最终准确率和条件性中间准确率，确保模型注重整体正确性。

测试中，交错推理在 Qwen2.5 模型（1.5B 和 7B 参数）上表现优异，响应速度提升超 80%，准确率提高高达 19.3%。

此外，该方法仅在问答（QA）和逻辑数据集上训练，却能在 MATH、GPQA、MMLU 等更具挑战性的基准测试中展现强大泛化能力。

研究还尝试了多种奖励策略，如全或无、部分积分和时间折扣奖励，其中条件性和时间折扣奖励效果最佳，显著优于传统方法。

AI在线附上参考地址

Interleaved Reasoning for Large Language Models via Reinforcement Learning

AI生成苹果Metal内核，PyTorch推理速度提升87%

AI自动生成的苹果芯片Metal内核，比官方的还要好？ Gimlet Labs的最新研究显示，在苹果设备上，AI不仅能自动生成Metal内核，还较基线内核实现了87%的PyTorch推理速度提升。更惊人的是，AI生成的Metal内核还在测试的215个PyTorch模块上实现了平均1.87倍的加速，其中一些工作负载甚至比基准快了数百倍。

9/5/2025 9:00:00 AM

OpenAI 升级 o3-mini 模型思维链，提高 AI 推理透明度

OpenAI 公司今天（2 月 7 日）在 X 平台发布推文，宣布面向免费和付费用户更新 o3-mini 的思维链，并为付费用户更新 o3-mini-high 的思维链，更透明、更详细地展示模型的“推理”步骤以及得出答案的方式。

2/7/2025 7:20:02 AM 故渊

深推理模型崛起！Together AI融资3.05亿美元助推GPU需求

在 AI 行业，Together AI 最近宣布完成了一轮3.05亿美元的 B 轮融资，这一消息引起了广泛关注。该公司的崛起与其新推出的深度理模型 DeepSeek-R1密切相关。与最初的担忧相反，许行业专家认为，深度推理的进步并没有降低对基础设施的需求，反而在不断提升这一需求。

2/21/2025 10:28:00 AM AI在线

苹果联合推出 AI 交错推理方法，Qwen2.5 模型响应速度快 80%、准确率提高 19.3%

相关资讯

AI生成苹果Metal内核，PyTorch推理速度提升87%

OpenAI 升级 o3-mini 模型思维链，提高 AI 推理透明度

深推理模型崛起！Together AI融资3.05亿美元助推GPU需求