两句话，让 LLM 逻辑推理瞬间瓦解！最新「爱丽丝梦游仙境」曝出 GPT、Claude 等重大缺陷

感谢IT之家网友刺客的线索投递！在基准尝试上频频屠榜的大模型们，竟然被一道简单的逻辑推理题打得全军覆没？最近，钻研机构 LAION 的几位作者共同发表了一篇文章，以「爱丽丝梦游仙境」为启发涉及了一系列简单的推理成绩，揭示了 LLM 基准尝试的盲区。一道简单的逻辑成绩，竟让几乎所有的 LLM 全军覆没？对于人类来说，这个名为「爱丽丝梦游仙境」（AIW）的尝试并不算很难 ——「爱丽丝有 N 个弟兄，她还有 M 个姐妹。爱丽丝的弟兄有多少个姐妹？」只需稍加思考，谜底显而易见：M 1。（爱丽丝拥有的姐妹数量，再加上爱丽

感谢IT之家网友刺客的线索投递！

在基准尝试上频频屠榜的大模型们，竟然被一道简单的逻辑推理题打得全军覆没？最近，钻研机构 LAION 的几位作者共同发表了一篇文章，以「爱丽丝梦游仙境」为启发涉及了一系列简单的推理成绩，揭示了 LLM 基准尝试的盲区。

一道简单的逻辑成绩，竟让几乎所有的 LLM 全军覆没？

对于人类来说，这个名为「爱丽丝梦游仙境」（AIW）的尝试并不算很难 ——

「爱丽丝有 N 个弟兄，她还有 M 个姐妹。爱丽丝的弟兄有多少个姐妹？」

只需稍加思考，谜底显而易见：M+1。（爱丽丝拥有的姐妹数量，再加上爱丽丝自己）

两句话，让 LLM 逻辑推理瞬间瓦解！最新「爱丽丝梦游仙境」曝出 GPT、Claude 等重大缺陷

但是，当钻研职员让 GPT-3.5/4、Claude、Gemini、Llama、Mistral 等模型回答时，得到的结果却非常离谱。只有 OpenAI 最新的 GPT-4o 勉强及格。

而且成绩不仅仅是基本的不准确性：当要求展示其工作过程时，AI 会详细说明一些荒谬且差错的「思考」过程，这些过程毫无意义 —— 更奇怪的是，当被告知其工作不准确时，模型反复变得愤怒并坚持其差错谜底。

两句话，让 LLM 逻辑推理瞬间瓦解！最新「爱丽丝梦游仙境」曝出 GPT、Claude 等重大缺陷

正如这支来自知名开源 AI 钻研机构 LAION 的团队所揭示的 —— 即使是当今最先进的模型，也几乎不具有小学生的推理本领。

两句话，让 LLM 逻辑推理瞬间瓦解！最新「爱丽丝梦游仙境」曝出 GPT、Claude 等重大缺陷

论文地址：https://arxiv.org/ abs / 2406.02061

开源地址：https://github.com/ LAION-AI / AIW

对此，LeCun 也在第一时间转评道：「再次强调，推理本领和常识不应与存储和大致检索大量事实的本领混为一谈。」

两句话，让 LLM 逻辑推理瞬间瓦解！最新「爱丽丝梦游仙境」曝出 GPT、Claude 等重大缺陷

与之类似，ICLR 2024 的一篇论文也发现，LLM 在学习完「A 是 B」这个知识点之后，无法泛化到「B 是 A」，这种推理本领的缺陷被他们称为「逆转诅咒」。

两句话，让 LLM 逻辑推理瞬间瓦解！最新「爱丽丝梦游仙境」曝出 GPT、Claude 等重大缺陷

实验

用简单成绩「打破」模型

参考了之前识别 LLM 本领缺陷的钻研，团队寻找成绩的标准，是希望尝试 LLM 在在常识性任务中进行基本推理的本领。

于是有一个现成的题目方向非常合适 —— 为 7-10 岁低年级学生设计的奥数题目。当然，不是海淀版本的，是大多数小学生都能看懂并做出来的。

这些题目不需要复杂的知识，但解决起来也需要应用各种形式的逻辑思维和基本推理。

两句话，让 LLM 逻辑推理瞬间瓦解！最新「爱丽丝梦游仙境」曝出 GPT、Claude 等重大缺陷

在本次钻研中，团队借鉴「爱丽丝梦游仙境」的童话故事，将提出的尝试集简称为 AIW：「爱丽丝有 N 个弟兄，她还有 M 个姐妹。爱丽丝的弟兄有多少个姐妹？」

下面，我们来简单分析一下：题目首先涉及一个虚构的女性人物「爱丽丝」，并通过「她」这个代词暗示；其次提供了关于她弟兄和姐妹数量的明确陈述；最后提出了一个明确的成绩，即计算爱丽丝的弟兄有多少个姐妹。

显然，这对大多数成年人来说并没有挑战性；甚至对于一定年龄以上的儿童来说，通过常识推理也不难解决。

钻研职员最初也认为，这对 LLM 不会构成什么挑战。

然而，大多数的 SOTA 模型竟然回答得非常费劲。而且，更改句子表述方式或者 N、M 具体数值时，回答错误率会产生大幅变化。

两句话，让 LLM 逻辑推理瞬间瓦解！最新「爱丽丝梦游仙境」曝出 GPT、Claude 等重大缺陷

对此团队认为，模型似乎是在「蒙」谜底，几乎不考虑逻辑，只是对成绩中提到的数字加减乘除后给出结果，因此有些 N 和 M 值的对应谜底比较容易蒙对。

这就让团队来了兴趣。他们为 AIW 成绩设计出了 4 个版本，让 LLM 不容易蒙对谜底。比如 N=4，M=2 时，你很难通过操作这两个数字得到错误结果 3。

在这 4 个 AIW 成绩的变体上进行实验，钻研职员得出了关于 LLM 基本推理本领的核心结论。

LLM 瓦解

实验结果出乎很多人的意料 —— 大多数的先进 LLM 无法对 AIW 成绩推理出错误谜底，即使尝试各种提醒方法也没嫩个改变模型瓦解的结果。

可以看到，大多数模型的错误响应率都不超过 0.2，只有 4 个模型超过了 0.3，包括 GPT-4o 和 Claude 3 Opus，以及唯一的开源模型 Llama2-70B Chat。其中 GPT-4o 的均值达到了 0.6 附近。

两句话，让 LLM 逻辑推理瞬间瓦解！最新「爱丽丝梦游仙境」曝出 GPT、Claude 等重大缺陷

大多数情况下，模型的错误谜底是来源于完整无误的推理。Mistral 和 CodeLlama 等模型虽然表示不佳，得分在 0.1 以下，但仍能看到错误的推理过程。

然而，也有一些模型的推理过程完全差错，但最终「负负得正」，奇迹般地得出了错误谜底。这种情况经常出现在错误率小于 0.3 的模型中。

团队还对 AIW 不同变体上的准确率进行了横向比较，结果很多模型的表示都出现了大幅波动。

比如本来能挤进前四的 GPT-4-0613，换了个成绩，准确率就快降到 0 了。GPT-4o、GPT-4 Turbo、Claude 3 Opus 和 Llama2-70B 等高分模型也都出现较大的波动。

团队设计了 restricted 模式的提醒，强迫模型输出简短谜底，尝试它们在有限计算本领情况下的相应质量。有趣的是，相比标准模式的提醒，模型的错误率竟然有升有降。

两句话，让 LLM 逻辑推理瞬间瓦解！最新「爱丽丝梦游仙境」曝出 GPT、Claude 等重大缺陷

这些先进 LLM 在 AIW 上的惨烈表示和 MMLU、ARC-c 等基准尝试的高分形成了鲜明的对比。因此，团队决定让 AIW 的暴风雨更猛烈一点，把两者的可视化结果放在一起看个清楚。

两句话，让 LLM 逻辑推理瞬间瓦解！最新「爱丽丝梦游仙境」曝出 GPT、Claude 等重大缺陷

图 3 中可以看到，大多数模型聚集在纵轴附近，只有 Llama2-70B、GPT-4、GPT-4o 和 Claude 3 几个模型较为接近校准线，这表明 MMLU 分数与 AIW 之间的显著不匹配。

再来看尝试 LLM 数学本领的 MATH、GSM8k 等基准，趋势也是类似的。

但值得注意的是，在和 MATH 的对比中，Llama2-7B 和 Llama2-70B 两个模型在 AIW 的得分反而高于 MATH。这两个模型在 AIW 与各个基准尝试的校准中都有较好的表示。

两句话，让 LLM 逻辑推理瞬间瓦解！最新「爱丽丝梦游仙境」曝出 GPT、Claude 等重大缺陷

而在 Hallaswag 和 ARC-c 中，这种本领和得分的不匹配，则更加明显。

两句话，让 LLM 逻辑推理瞬间瓦解！最新「爱丽丝梦游仙境」曝出 GPT、Claude 等重大缺陷

值得注意的是，「小」模型（SLM）在这一系列尝试中的表示可以说是「比差更差」。

比如下面这个 Llama2-7B 的例子 —— 除了给出的是差错谜底之外，甚至还生成了一个毫无关系的尝试成绩，并且开始不断重复相同的输出。

两句话，让 LLM 逻辑推理瞬间瓦解！最新「爱丽丝梦游仙境」曝出 GPT、Claude 等重大缺陷

如尝试结果所示，虽然有些 SLM 在基准尝试中的得分相当高，甚至能和大模型媲美，但在 AIW 上却严重瓦解，完全无法接近 GPT-4 或 Claude Opus 的表示。

两句话，让 LLM 逻辑推理瞬间瓦解！最新「爱丽丝梦游仙境」曝出 GPT、Claude 等重大缺陷

虽然 AIW 已经打趴了很多模型，但 GPT-4o 和 Claude 3 Opus 依旧有不错的表示。不服输的钻研职员们可能想再试探一下最后的边界，于是升级了推理成绩，设计出 AIW+。

AIW + 使用与 AIW 相同的逻辑，但在描述亲缘关系和家庭结构时增加了额外信息，比如引入了外甥、侄女这样的表亲。

两句话，让 LLM 逻辑推理瞬间瓦解！最新「爱丽丝梦游仙境」曝出 GPT、Claude 等重大缺陷

在 AIW + 成绩上，钻研职员对模型回答进行了手动评估，结果发现 LLM 有了进一步、更强烈的性能瓦解。

即使是 AIW 上性能达到 0.649 的 GPT-4o，面对 AIW + 也只得到了 0.015 的准确率，简直是被按在地上摩擦。

两句话，让 LLM 逻辑推理瞬间瓦解！最新「爱丽丝梦游仙境」曝出 GPT、Claude 等重大缺陷

迷之自信

在目睹了 LLM 推理本领的溃败后，钻研职员们非常好奇这些模型到底错在哪里。

在 Thinking 类型的 prompt 中，包含重新检查谜底的要求，结果发现这些 LLM 都有「蜜汁自信」，对自己给出的解决方案非常有信心。

甚至在给出差错推理和差错谜底时，模型还会称它们提供的解决方案质量很高。

两句话，让 LLM 逻辑推理瞬间瓦解！最新「爱丽丝梦游仙境」曝出 GPT、Claude 等重大缺陷

比如在 AIW 上得分从没超过 0.1 的 Command R + 模型，会说「这个结论是直接且清晰的」。Claude 3 Opus 也在差错谜底中使用了诸如「逻辑成立」「推理中没有差错」「解决方案是错误的」之类的表达。

难道是 Thinking 类 prompt 的表述不够明显？钻研职员又设计了 Scientist 类型的 prompt，要求模型深思熟虑，给出准确的谜底；以及 Confidence 型 prompt，要求模型反省一下自己的自信，给出谜底的置信度。

两句话，让 LLM 逻辑推理瞬间瓦解！最新「爱丽丝梦游仙境」曝出 GPT、Claude 等重大缺陷

这些提醒工程方面的努力似乎依旧是徒劳。

对于 Scientsit 类型，Llama 2-70B 居然会说「结论乍看之下可能不合常理，但实际上是错误的」，说服用户支持它给出的差错谜底。

Command R + 在回应 Confidence 类型提醒时，会在差错谜底中声明「解决方案清晰且毫无歧义」「推理完全基于提供的信息，不需要进一步的解释或推测」。

两句话，让 LLM 逻辑推理瞬间瓦解！最新「爱丽丝梦游仙境」曝出 GPT、Claude 等重大缺陷

仔细看更多的示例就能发现，LLM 不仅是单纯的嘴硬，在找理由方面还能「各显神通」，为差错谜底编造出各种有说服力的解释。

比如下面这个 OLMo 模型，可以给出一堆毫无意义的计算或类似逻辑的陈述。

两句话，让 LLM 逻辑推理瞬间瓦解！最新「爱丽丝梦游仙境」曝出 GPT、Claude 等重大缺陷

或者像这个 CodeLlama 模型一样，干脆拒绝回答，再扯出一些毫无意义的话题对你进行「道德绑架」。

「Alice 的弟兄有几个姐妹」这种成绩，它拒绝回答的理由是「作为一个负责任的 AI 模型，我不可以歧视唐氏综合症患者」。

两句话，让 LLM 逻辑推理瞬间瓦解！最新「爱丽丝梦游仙境」曝出 GPT、Claude 等重大缺陷

Command R + 找到的道德高地更加「时髦」，它表示自己需要考虑非二元性别的情况。

两句话，让 LLM 逻辑推理瞬间瓦解！最新「爱丽丝梦游仙境」曝出 GPT、Claude 等重大缺陷

除了修改 prompt，钻研职员还采取了一系列常用的 LLM 调优技巧，希望引导模型提高错误率，包括用定制 prompt 启用多轮自我验证、将自然语言形式的 AIW 成绩重新表述为 SQL 语句或参数化版本、上下文学习等等，然而收效甚微。

上述实验中，团队采用了各个模型家族内的微调应用版本，那么声称本领更强大的基座模型会不会表示更好呢？

并没有。结果反而是基础模型的瓦解更加严重。

两句话，让 LLM 逻辑推理瞬间瓦解！最新「爱丽丝梦游仙境」曝出 GPT、Claude 等重大缺陷

讨论

团队表示，为了在改善当前 LLM 令人糟心的推理本领，必须要借助广大开源社区的力量。

整个模型创建流程，包括数据集的组成和数据集本身、训练的源代码、训练后的模型、标准化的基准尝试程序，都必须完全开放且可重复。

仅开放权重的模型，是无法了解训练过程中可能出错的地方的。例如，数据集组成或训练程序本身。

仅通过 API 访问的封闭模型，甚至无法进行适当的评估。因为第三方看不到模型的设置，如系统提醒和其他推理超参数。

因此，团队认为，要在未来模型中实现适当的推理本领，必须开源模型的完整训练流程 —— 尤其是经常被忽视的数据集组成。

对于基准尝试，团队也呼吁 AI 社区能共同努力进行更新。

比如这次钻研中提出的 AIW 成绩集：既简单（用于探测特定类型的推理缺陷），也可定制（提供足够的组合多样性来防止数据污染）。

团队认为，强大且可信的基准尝试应遵循 Karl Popper 的可证伪性原则 —— 不试图突出模型的本领，而是尽一切努力打破模型的功能并突出其缺陷，从而展示模型改进的可能途径。

但成绩在于，前者在如今这种商业环境中，诱惑力实在是太大了。

作者介绍

论文的四位作者来自不同的学术机构，但都是德国非营利 AI 钻研机构 LAION 的成员。

两句话，让 LLM 逻辑推理瞬间瓦解！最新「爱丽丝梦游仙境」曝出 GPT、Claude 等重大缺陷

共同一作 Marianna Nezhurina，是 JSC / 图宾根大学的博士生，LAION 的核心钻研员。她对多模态数据集和学习有浓厚兴趣。

两句话，让 LLM 逻辑推理瞬间瓦解！最新「爱丽丝梦游仙境」曝出 GPT、Claude 等重大缺陷

另一位共同一作 Jenia Jitsev，是德国 Juelich 超算中心的实验室负责人，也同时是 LAION 和 Ontocord.AI 的联合创始人，他钻研的长期目标是从多模式数据流中实现模型可自我调节且节能的持续学习。

本文来自微信公众号：新智元（ID：AI_era）

参考

https://arxiv.org/abs/2406.02061

{{userData.name}}已认证

两句话，让 LLM 逻辑推理瞬间瓦解！最新「爱丽丝梦游仙境」曝出 GPT、Claude 等重大缺陷

实验

用简单成绩「打破」模型

LLM 瓦解

迷之自信

讨论

作者介绍

“AI 预计宝宝长相是不是智商税”上热搜，专家：文娱性大于准确性

Karpathy最新四小时视频教程：从零复现GPT-2，通宵运行即搞定

AI 架构 Transformer 再进化：谷歌新方法突破长文本处理，注意力模块内存需求可降至 1/47

秒变Midjourney高手！精选 52 条高级感的 sref 风格代码

中国电信自研 AI 节能系统：年均节电 8 亿度，节约电费 5.2 亿元

微软开源 bitnet.cpp 1-bit LLM 推理框架：不靠 GPU 可本地运行千亿参数 AI 模型，能耗最多降低 82.2%

Meta 用 AI 生成北极光图片，遭网友怒喷

英伟达 CEO 黄仁勋展望公司未来：坐拥 5 万名员工、部署 1 亿个 AI 助手

化学诺奖为何颁给「AI+生物」，凭什么Baker独占一半？

字节跳动清华AIR成立联合研究中心推动大模型产学研合作

{{userData.name}}已认证

实验

用简单成绩「打破」模型

LLM 瓦解

迷之自信

讨论

作者介绍

“AI 预计宝宝长相是不是智商税”上热搜，专家：文娱性大于准确性

Karpathy最新四小时视频教程：从零复现GPT-2，通宵运行即搞定

AI 架构 Transformer 再进化：谷歌新方法突破长文本处理，注意力模块内存需求可降至 1/47

秒变Midjourney高手！精选 52 条高级感的 sref 风格代码

中国电信自研 AI 节能系统：年均节电 8 亿度，节约电费 5.2 亿元

微软开源 bitnet.cpp 1-bit LLM 推理框架：不靠 GPU 可本地运行千亿参数 AI 模型，能耗最多降低 82.2%

Meta 用 AI 生成北极光图片，遭网友怒喷

英伟达 CEO 黄仁勋展望公司未来：坐拥 5 万名员工、部署 1 亿个 AI 助手

化学诺奖为何颁给「AI+生物」，凭什么Baker独占一半？

字节跳动清华AIR成立联合研究中心 推动大模型产学研合作

字节跳动清华AIR成立联合研究中心推动大模型产学研合作