苹果揭示当今先进模型存在严重缺陷，给企业高管敲响警钟

一份具有开创性的苹果研究论文在AI社区引发了轩然大波，该论文揭示了当今最先进模型中存在的严重局限性，这些缺陷此前一直未被发现。论文《思考的错觉》表明，像GPT-4、Deep Seek和Claude Sonnet这样的高级模型所应用的“思维链”推理，在任务变得过于复杂时，会出现“完全的准确性崩溃”。最令人担忧的方面似乎是，一旦任务复杂到一定程度，再投入更多的处理能力、标记或数据也无济于事。

一份具有开创性的苹果研究论文在AI社区引发了轩然大波，该论文揭示了当今最先进模型中存在的严重局限性，这些缺陷此前一直未被发现。

论文《思考的错觉》表明，像GPT-4、Deep Seek和Claude Sonnet这样的高级模型所应用的“思维链”推理，在任务变得过于复杂时，会出现“完全的准确性崩溃”。

最令人担忧的方面似乎是，一旦任务复杂到一定程度，再投入更多的处理能力、标记或数据也无济于事。

这对于我们经常听到的那些宏大构想来说，显然有着深远的影响，比如AI解决气候变化、能源短缺或全球贫困等巨大挑战。

大型推理模型(LRM)是驱动自主式AI的问题解决引擎，一些人认为它们是通往通用人工智能(AGI)道路上的一步，即AI能够像人类一样，将其所学应用于任何任务。目前，人们已经在开发这些模型上投入了巨额资金，因为它们被认为是当今最先进、最有用的AI模型。

但是，这是否意味着数十亿美元的投资都投入了一个本质上无用的技术死胡同呢?

我不这么认为，但我确实相信，对于希望解锁AI真正潜力的企业和组织来说，有一些重要的教训需要汲取，那么，让我们更深入地探讨一下。

研究发现

该报告的核心前提是，AI的“思考”可能只是一种错觉，而非真实、功能齐全的人类客观推理的镜像。

这一观点得到了“准确性崩溃”发现的支持，该发现表明，虽然LRM在处理低复杂度任务时表现出色，但随着复杂度的增加，它们最终会达到一个完全失败的程度。

也许最出乎意料的是，这些模型在任务变得过于复杂时，似乎会选择放弃，使用更少的标记并投入更少的努力。

而且，即使明确告诉它们如何解决问题，它们也常常会失败，这让我们对训练它们克服这种行为的能力产生了怀疑。

这些发现非常重要，因为在商业AI领域，人们往往相信“越大越好”，即更大的数据、更大的算法和更多的标记。苹果的研究发现表明，超过一定点后，规模带来的好处就会消失，并最终崩溃。

这意味着，当要求AI执行过于复杂的任务时，如制定混乱现实世界场景中的广泛、高级战略或进行复杂的法律推理时，其有用性也会降低。

这对当今的企业意味着什么?

在我看来，这并不是一个不可逾越的障碍，而是一个信号，表明生成式语言AI不应被视为解决所有问题的灵丹妙药。

对我来说，这里有三个关键的教训。

首先，将AI的注意力集中在结构化、低到中等复杂度的任务上，更有可能达到最佳效果。

例如，律师事务所不应期望AI能直接为它们制定出一个获胜的案件策略，这个问题过于复杂和开放，一旦模型达到无法有效推理的程度，就必然会导致通用且无用的输出。

然而，该事务所可以使用AI来从合同中提取相关点，创建相关先前判例法的摘要，并标记出风险。

其次，它强调了“人在回路中”(human-in-the-loop)的重要性，即确保AI被负责任和可追溯地使用所需的人类监督这一关键要素。

第三，当“准确性崩溃”成为危险时，学会识别其迹象，如模型放弃推理尝试时标记使用量的下降，对于减轻其影响至关重要。

发挥AI的优势，同时缓冲其弱点的影响，才是游戏的关键。

那么，AI是否已经走到了尽头?

在我看来，苹果的研究并不预示着AI的“尽头”或走投无路的局面。相反，它应该被企业用来帮助他们专注于可能成功的领域，并理解在哪里应该建立对AI失败的韧性。

理解AI的局限性并不应该阻止我们从中受益，但它有助于我们避免因推理崩溃或只是浪费时间和金钱而可能造成的严重伤害或损害。

自主式AI在这方面具有潜力，它能够部署各种工具来弥补在仅靠推理不足的情况下的差距。同样，可解释性AI的概念也很重要，因为设计透明的系统意味着当崩溃发生时，我们将更好地理解出了什么问题。

当然，没有人应该期望AI能总是完美地工作，并为每一个可能的问题提供最佳解决方案，然而，我们越了解它，就越能利用其优势，也就越有可能创造真正的价值。

苹果揭示当今先进模型存在严重缺陷，给企业高管敲响警钟

研究发现

这对当今的企业意味着什么?

那么，AI是否已经走到了尽头?

相关资讯

ALPHAONE（α1）：LRM 自适应推理效率与准确性的平衡之道

250多篇论文，上海AI Lab综述推理大模型高效思考

4D-LRM震撼发布！AI重建时空，任意视角任意时刻一键还原