AI在线 AI在线

“我没错!”GPT-4o嘴硬翻车,AI在黑天鹅事件面前集体宕机

来自哥伦比亚大学、Vector人工智能研究所以及南洋理工大学的一个联合研究团队发现:人工智能模型在处理意外事件时的推理能力存在严重缺陷。  即便是如GPT-4o和Gemini 1.5 Pro这样的顶尖视觉语言模型(VLM),其表现也远逊于人类,差距最高可达32%。  论文地址:《黑天鹅》的研究指出,当前主流的AI评估方式普遍存在一个根本性问题:大多数基准测试围绕“常规模式”构建,也就是说,它们聚焦于可预测、规律清晰的视觉场景。

“我没错!”GPT-4o嘴硬翻车,AI在黑天鹅事件面前集体宕机

来自哥伦比亚大学、Vector人工智能研究所以及南洋理工大学的一个联合研究团队发现:人工智能模型在处理意外事件时的推理能力存在严重缺陷。 

即便是如GPT-4o和Gemini 1.5 Pro这样的顶尖视觉语言模型(VLM),其表现也远逊于人类,差距最高可达32%。 

图片

论文地址:https://arxiv.org/pdf/2412.05725

这篇名为《黑天鹅》的研究指出,当前主流的AI评估方式普遍存在一个根本性问题:大多数基准测试围绕“常规模式”构建,也就是说,它们聚焦于可预测、规律清晰的视觉场景。

但现实世界不按套路出牌。意外、突变和违反常识的“黑天鹅事件”无处不在。而人类之所以能处理这些状况,依靠的是两种核心推理能力。

第一种是溯因推理(abductive reasoning),即从有限的观察中推断出最可能的解释。 例如,观察到路口有两辆撞坏的汽车,人们会推测是一名司机闯了红灯。 

图片

第二种是可废止推理(defeasible reasoning),即在新证据出现时修正最初的结论。 比如,当发现路口的交通信号灯发生故障时,人们会放弃“司机闯红灯”的假设,转而认为是信号灯的问题。 

如果AI要成为自动驾驶汽车等领域的可靠决策者,这两种推理能力至关重要。 

“黑天鹅套件”:一个专为意外设计的考场

图片

为了准确评估AI在意外情况下的推理能力,研究团队构建了一个全新的基准测试,名为“BlackSwanSuite”(黑天鹅套件)。 

这个基准测试包含1655个视频,内容涵盖了各种打破常规的真实场景,例如这些视频涵盖了交通事故、儿童失误、泳池滑倒等。

图片

研究者将每个视频精心划分为三个部分:事发前 (Vpre)、事发时 (Vmain)和事发后 (Vpost)。 

这种结构化的处理方式,为设计针对性的推理任务奠定了基础。 基于此,团队设计了三大核心任务,共计超过15000个问题。 

第一个任务是“预测者”(Forecaster),模型仅观看视频的开头,然后被要求预测接下来会发生什么。 

第二个任务是“侦探”(Detective),模型会看到事件的开头和结尾,但中间的关键部分被隐藏,模型需要推断出中间发生了什么。 这项任务直接考验模型的溯因推理能力。

第三个任务是“报告者”(Reporter),模型可以观看完整的视频,然后需要描述整个事件的来龙去脉。 同时,模型还需要重新评估之前基于不完整信息做出的判断是否依然成立。这直接测试了模型的可废止推理能力。

严峻的现实:顶尖模型的显著短板

图片

所有顶尖的AI模型,包括GPT-4o、Gemini 1.5 Pro,以及多种开源系统(如LLaVA-Video、VILA、VideoLLaMA 2),在三类任务中全面落后于人类。

在多项选择题上,最好的模型落后人类多达25%。 在是非判断题上,这个差距进一步扩大到了32%。 

具体来看,在考验溯因推理的“侦探”任务中,表现最好的GPT-4o,其准确率也比人类低了24.9%。 

而在考验可废止推理的“报告者”任务中,GPT-4o与人类的差距更是达到了惊人的32%。 

32个百分点的差距说明一个问题:AI不仅“看错”,更“改不了”。

图片

模型往往会在最初判断后“锁定思路”,拒绝基于新证据进行推理更新。这在自动驾驶等领域,可能带来致命后果。

例如,论文中展示:垃圾车应该是“装垃圾”的,但当视频中垃圾车却“掉下了一棵树”,AI模型当场宕机。

再例如:一段视频中,一名男子手持枕头在圣诞树旁挥舞。

GPT-4o判断他想攻击身边的人。但实际情况是:枕头碰到了圣诞树,装饰物从树上掉落,砸中了旁边的女性。

视频结尾已清晰展示全过程,但GPT-4o依然坚持“男子攻击他人”的原始判断。

即便事实已推翻原猜测,模型也不做修正。这种“第一印象即终审判”的僵化思维,成了AI在现实世界中的最大隐患。

因为它找不到这个“异常行为”的参考模式。根源在于,AI模型依赖的是海量训练样本的“统计模式”。

它们在训练中学习的是“什么事发生过很多次”,而不是“这事的因果关系是什么”。

所以,只要场景偏离了“常规轨迹”,它们就无法处理。为了进一步探究问题的根源,研究团队进行了一项关键实验。 

他们直接向AI模型提供由人类撰写的、对视频内容的文字描述,从而绕过模型自身的视觉感知环节。 

结果显示,在获得了人类级别的感知和理解输入后,模型的推理准确率提升了高达10%

这一发现表明,当前AI的核心短板不仅在于高级推理,更在于基础的感知和理解能力。 

注:头图AI生成

相关资讯

OpenAI发布GPT-4.1系列模型:能力全面超越前代

4月15日,OpenAI 在其官方博客宣布正式发布 GPT-4.1系列模型,涵盖 GPT-4.1、GPT-4.1mini 和 GPT-4.1nano 三款子模型。 该系列在编程能力、指令理解及长文本处理等方面实现重大突破,全面超越前代 GPT-4o 及 GPT-4o mini。 其中,模型上下文窗口扩展至100万 tokens,知识库更新至2024年6月,为复杂任务提供更强支持。
4/15/2025 9:00:45 AM
AI在线

OpenAI发布GPT-4.1系列模型,编码与多模态能力全面升级

人工智能领域的竞争日趋白热化,OpenAI再次以技术突破引领潮流。 AIbase从社交媒体获悉,OpenAI于近日通过API形式发布了三款全新模型:GPT-4.1、GPT-4.1mini和GPT-4.1nano。 这些模型在性能上全面超越现有GPT-4o及GPT-4o mini,尤其在编码、指令遵循和多模态能力上表现突出。
4/15/2025 10:01:37 AM
AI在线

奥特曼曝GPT-5比他聪明!OpenAI暗藏GPT-4.5,o系编程跻身TOP 50

奥特曼柏林工业大学最新访谈,再次轰动了全世界。 全场4000个座位,半个小时全部订满,整个Audimax讲堂虚无坐席。 在这场专题讨论会上,TUB计算机科学教授Fatma Deniz与奥特曼、数据奇才Volker Markl,以及企业家Nicole Büttner共同探索了AI对科学、商业和社会的影响。
2/10/2025 1:00:00 AM
新智元
  • 1