AI在线 AI在线

苹果揭示当今先进模型存在严重缺陷,给企业高管敲响警钟

一份具有开创性的苹果研究论文在AI社区引发了轩然大波,该论文揭示了当今最先进模型中存在的严重局限性,这些缺陷此前一直未被发现。 论文《思考的错觉》表明,像GPT-4、Deep Seek和Claude Sonnet这样的高级模型所应用的“思维链”推理,在任务变得过于复杂时,会出现“完全的准确性崩溃”。 最令人担忧的方面似乎是,一旦任务复杂到一定程度,再投入更多的处理能力、标记或数据也无济于事。

苹果揭示当今先进模型存在严重缺陷,给企业高管敲响警钟

一份具有开创性的苹果研究论文在AI社区引发了轩然大波,该论文揭示了当今最先进模型中存在的严重局限性,这些缺陷此前一直未被发现。

论文《思考的错觉》表明,像GPT-4、Deep Seek和Claude Sonnet这样的高级模型所应用的“思维链”推理,在任务变得过于复杂时,会出现“完全的准确性崩溃”。

最令人担忧的方面似乎是,一旦任务复杂到一定程度,再投入更多的处理能力、标记或数据也无济于事。

这对于我们经常听到的那些宏大构想来说,显然有着深远的影响,比如AI解决气候变化、能源短缺或全球贫困等巨大挑战。

大型推理模型(LRM)是驱动自主式AI的问题解决引擎,一些人认为它们是通往通用人工智能(AGI)道路上的一步,即AI能够像人类一样,将其所学应用于任何任务。目前,人们已经在开发这些模型上投入了巨额资金,因为它们被认为是当今最先进、最有用的AI模型。

但是,这是否意味着数十亿美元的投资都投入了一个本质上无用的技术死胡同呢?

我不这么认为,但我确实相信,对于希望解锁AI真正潜力的企业和组织来说,有一些重要的教训需要汲取,那么,让我们更深入地探讨一下。

研究发现

该报告的核心前提是,AI的“思考”可能只是一种错觉,而非真实、功能齐全的人类客观推理的镜像。

这一观点得到了“准确性崩溃”发现的支持,该发现表明,虽然LRM在处理低复杂度任务时表现出色,但随着复杂度的增加,它们最终会达到一个完全失败的程度。

也许最出乎意料的是,这些模型在任务变得过于复杂时,似乎会选择放弃,使用更少的标记并投入更少的努力。

而且,即使明确告诉它们如何解决问题,它们也常常会失败,这让我们对训练它们克服这种行为的能力产生了怀疑。

这些发现非常重要,因为在商业AI领域,人们往往相信“越大越好”,即更大的数据、更大的算法和更多的标记。苹果的研究发现表明,超过一定点后,规模带来的好处就会消失,并最终崩溃。

这意味着,当要求AI执行过于复杂的任务时,如制定混乱现实世界场景中的广泛、高级战略或进行复杂的法律推理时,其有用性也会降低。

这对当今的企业意味着什么?

在我看来,这并不是一个不可逾越的障碍,而是一个信号,表明生成式语言AI不应被视为解决所有问题的灵丹妙药。

对我来说,这里有三个关键的教训。

首先,将AI的注意力集中在结构化、低到中等复杂度的任务上,更有可能达到最佳效果。

例如,律师事务所不应期望AI能直接为它们制定出一个获胜的案件策略,这个问题过于复杂和开放,一旦模型达到无法有效推理的程度,就必然会导致通用且无用的输出。

然而,该事务所可以使用AI来从合同中提取相关点,创建相关先前判例法的摘要,并标记出风险。

其次,它强调了“人在回路中”(human-in-the-loop)的重要性,即确保AI被负责任和可追溯地使用所需的人类监督这一关键要素。

第三,当“准确性崩溃”成为危险时,学会识别其迹象,如模型放弃推理尝试时标记使用量的下降,对于减轻其影响至关重要。

发挥AI的优势,同时缓冲其弱点的影响,才是游戏的关键。

那么,AI是否已经走到了尽头?

在我看来,苹果的研究并不预示着AI的“尽头”或走投无路的局面。相反,它应该被企业用来帮助他们专注于可能成功的领域,并理解在哪里应该建立对AI失败的韧性。

理解AI的局限性并不应该阻止我们从中受益,但它有助于我们避免因推理崩溃或只是浪费时间和金钱而可能造成的严重伤害或损害。

自主式AI在这方面具有潜力,它能够部署各种工具来弥补在仅靠推理不足的情况下的差距。同样,可解释性AI的概念也很重要,因为设计透明的系统意味着当崩溃发生时,我们将更好地理解出了什么问题。

当然,没有人应该期望AI能总是完美地工作,并为每一个可能的问题提供最佳解决方案,然而,我们越了解它,就越能利用其优势,也就越有可能创造真正的价值。

相关资讯

ALPHAONE(α1):LRM 自适应推理效率与准确性的平衡之道

大家好,我是肆〇柒。 今天,我们来聊大型推理模型(LRM)领域的一项研究 ——ALPHAONE(α1)框架。 当前,大型推理模型如 OpenAI 的 o1 和 DeepSeek-R1 等,已经在诸多复杂推理任务上展现出了强大的能力,但它们在推理过程中也面临着一些挑战,比如容易陷入过度推理或推理不足的困境。
6/9/2025 9:17:44 AM
肆零柒

250多篇论文,上海AI Lab综述推理大模型高效思考

最近,像 OpenAI o1/o3、DeepSeek-R1 这样的大型推理模型(Large Reasoning Models,LRMs)通过加长「思考链」(Chain-of-Thought,CoT)在推理任务上表现惊艳。 但随之而来的是一个日益严重的问题:它们太能「说」了! 生成的推理过程往往充斥着冗余信息(比如反复定义)、对简单问题过度分析,以及对难题的探索浅尝辄止。
4/4/2025 1:47:00 PM
机器之心

4D-LRM震撼发布!AI重建时空,任意视角任意时刻一键还原

一款名为4D-LRM(Large Space-Time Reconstruction Model)的大型时空重建模型引发了科技界的广泛关注。 这款模型以其突破性的动态物体重建能力,实现了从任意视角、任意时间点生成高保真4D场景的壮举。 AIbase整理了最新网络信息,为您全面解析4D-LRM的创新技术及其潜在应用前景。
6/25/2025 11:00:55 AM
AI在线
  • 1