苹果最新研究：现有 AI 大模型“更像是在记忆，而非真正的推理”

作者：问舟 2025-06-08 04:05

苹果最新研究指出，现有AI大模型并不具备真正的思维能力，而是依赖模式匹配与记忆。研究通过可控解谜环境，揭示了模型在不同复杂度任务中的表现和局限性。#AI真相# #苹果研究#

苹果机器学习研究中心于当地时间 6 月 6 日发表了一篇研究论文，称现有 AI 模型并不具备真正的思维能力或推理能力，而是依赖于模式匹配与记忆，尤其是对于复杂的任务而言。

苹果研究人员对现有的前沿“大型推理模型”—— 如 OpenAI o3-mini、DeepSeek-R1、Anthropic 的 Claude 3.7 Sonnet Thinking 和谷歌 Gemini Thinking—— 进行了系统评估。

研究发现，尽管这些模型具备生成详细“思考链”的能力，并在中等复杂度任务上表现出优势，但其推理能力存在根本性局限：当问题复杂度超过特定临界点时，模型性能会完全崩溃至“零准确率”。

此外，在模型推理过程中，即使仍有充足的推理算力，它们用于“思考”的 token 数量反而随难度上升而减少，这种现象意味着现有推理方法存在根本局限性。

苹果最新研究：现有 AI 大模型“更像是在记忆，而非真正的推理”

这篇《思考的幻象：通过问题复杂性的视角理解推理模型的优势与局限》由 Parshin Shojaee 等人撰写。研究表明，当前业界对这些模型的评估主要集中在数学和编程基准测试上，关注最终答案的准确性，但这往往忽略了数据污染问题，也无法提供有关内部推理轨迹结构和质量的洞见。

研究人员采用了一系列可控的解谜环境，允许精确操纵组成复杂性，同时保持逻辑结构的一致性。这使得不仅可以分析最终答案，还可以探究内部推理轨迹，从而更深入地了解这些模型是如何“思考”的。

研究团队提出，模型表现可分为三个阶段：

低复杂度任务：传统大模型（AI在线注：如 Claude-3.7 无思维版本）表现更佳；
中等复杂度任务：具备思维机制的大型推理模型（LRMs）更占优势；
高复杂度任务：两类模型均陷入完全失效状态。

特别是，研究发现 LRMs 在执行精确计算方面存在局限性，无法使用显式算法且跨不同谜题进行推理时表现出不一致性。

总的来说，这项研究不仅质疑了当前基于已建立数学基准的 LRMs 评估范式，还强调了需要更加细致的实验设置来探索这些问题。通过使用可控制的谜题环境，本研究提供了对语言推理模型能力和局限性的深刻见解，并为未来的研究指明了方向。

研究人员表示，“这些发现突出了现有 LRMs 的优点和局限性，引发了关于这些系统推理本质的问题，这对它们的设计和部署具有重要意义。”

参考资料：

《The Illusion of Thinking: Understanding the Strengths and Limitations of Reasoning Models via the Lens of Problem Complexity - Apple Machine Learning Research》

iOS18.6或为中国用户启用AI功能国行苹果AI或由阿里百度技术支持

近日，知名科技记者马克·古尔曼透露消息，苹果AI有望在iOS18.6系统中首次在中国大陆启用部分功能，届时其背后将有阿里巴巴和百度提供技术支持。由于政策和合规方面的限制，海外的大模型如GPT、Gemini等无法在中国境内直接提供服务。基于此情况，百度的文心一言大模型将成为国行版苹果AI的核心云端智能引擎，承担起为苹果AI提供智能处理能力的重任。

5/6/2025 10:01:27 AM AI在线

曝国行版iOS18.6启用部分苹果AI 百度阿里提供技术支持

近日，苹果记者Mark Gurman爆料称，国行版苹果iOS18.6即将启用部分Apple Intelligence功能，而这一功能的实现将由百度和阿里共同提供技术支持。据了解，在此次合作中，阿里负责开发审查引擎。与此同时，百度将自身AI技术与苹果的Siri和Visual Intelligence进行深度整合。

5/11/2025 10:00:42 AM AI在线

苹果大模型智商归零论文刷屏，是革命，还是自曝式搬起石头打自己的脚？大牛犀利锐平：苹果真正的问题，不是论文写得刺耳，而是产品太难看

编译 | 云昭出品 | 51CTO技术栈（微信号：blog51cto）. 近日，苹果被爆出了两个大事：一篇极具争议的论文，一场颇受质疑的新发布。最吊诡的是，iOS26新发布的热度还没有一篇论文引起的反响更强烈！

6/13/2025 1:14:10 PM 云昭

苹果最新研究：现有 AI 大模型“更像是在记忆，而非真正的推理”

相关资讯

iOS18.6或为中国用户启用AI功能 国行苹果AI或由阿里百度技术支持

曝国行版iOS18.6启用部分苹果AI 百度阿里提供技术支持

苹果大模型智商归零论文刷屏，是革命，还是自曝式搬起石头打自己的脚？大牛犀利锐平：苹果真正的问题，不是论文写得刺耳，而是产品太难看

iOS18.6或为中国用户启用AI功能国行苹果AI或由阿里百度技术支持