AI在线 AI在线

人类秒懂,AI崩溃:一个简单测试,就让GPT-5、Gemini等顶级模型集体“翻车”

人类一眼就能看懂的文字,AI居然全军覆没。 来自A*STAR、NUS、NTU、清华、南开等机构的研究团队,最近有个新发现:不管是OpenAI的GPT-5、GPT-4o,还是谷歌Gemini、Anthropic Claude,甚至国内的Qwen、LLaVA,在面对一些“看得见但读不懂”的文字时,全都表现极差,直接“翻车”。 先切再叠,AI束手无策VYU团队设计了两个小实验:1、选取了100条四字成语,把每个汉字横切、竖切、斜切,再把碎片重新拼接。

人类一眼就能看懂的文字,AI居然全军覆没。

来自A*STAR、NUS、NTU、清华、南开等机构的研究团队,最近有个新发现:

不管是OpenAI的GPT-5、GPT-4o,还是谷歌Gemini、Anthropic Claude,甚至国内的Qwen、LLaVA,在面对一些“看得见但读不懂”的文字时,全都表现极差,直接“翻车”。

人类秒懂,AI崩溃:一个简单测试,就让GPT-5、Gemini等顶级模型集体“翻车”

先切再叠,AI束手无策

VYU团队设计了两个小实验:

1、选取了100条四字成语,把每个汉字横切、竖切、斜切,再把碎片重新拼接。

人类秒懂,AI崩溃:一个简单测试,就让GPT-5、Gemini等顶级模型集体“翻车”

人类读起来毫无压力,AI却几乎全错。

人类秒懂,AI崩溃:一个简单测试,就让GPT-5、Gemini等顶级模型集体“翻车”人类秒懂,AI崩溃:一个简单测试,就让GPT-5、Gemini等顶级模型集体“翻车”

2、挑选了100个八字母英文单词,把前后两半分别用红色和绿色渲染,再叠加在一起。

人类秒懂,AI崩溃:一个简单测试,就让GPT-5、Gemini等顶级模型集体“翻车”

对人类来说,这几乎不构成挑战——因为我们的视觉系统对红/绿通道异常敏感,大脑能自动分离颜色,然后拼出完整的单词。

但对AI模型来说,结果却完全不同:

人类秒懂,AI崩溃:一个简单测试,就让GPT-5、Gemini等顶级模型集体“翻车”人类秒懂,AI崩溃:一个简单测试,就让GPT-5、Gemini等顶级模型集体“翻车”

即使是最新发布的大模型,在这些问题上也屡屡碰壁。

无论是Gemini 2.5 Pro:

人类秒懂,AI崩溃:一个简单测试,就让GPT-5、Gemini等顶级模型集体“翻车”人类秒懂,AI崩溃:一个简单测试,就让GPT-5、Gemini等顶级模型集体“翻车”

还是Kimi 2(Switch to 1.5 for visual understanding) :

人类秒懂,AI崩溃:一个简单测试,就让GPT-5、Gemini等顶级模型集体“翻车”人类秒懂,AI崩溃:一个简单测试,就让GPT-5、Gemini等顶级模型集体“翻车”

(PS:Kimi 2最终推测的答案是hardline)

又或者Qwen3-Max-Preview

人类秒懂,AI崩溃:一个简单测试,就让GPT-5、Gemini等顶级模型集体“翻车”人类秒懂,AI崩溃:一个简单测试,就让GPT-5、Gemini等顶级模型集体“翻车”

全都得不到正确的结果。

AI不懂符号分割与组合

对该现象进行分析,VYU团队认为,根本原因在于AI靠模式匹配,不懂文字结构

人类之所以能“读懂”,是因为我们依赖结构先验——知道汉字由偏旁部首组成,知道英文是按字母组合的。

而大模型只是把文字当作“图片模式”来识别,没有符号分割与组合的机制。

于是,只要文字稍作扰动(但人类依旧能看懂),AI就会彻底崩溃。

人类秒懂,AI崩溃:一个简单测试,就让GPT-5、Gemini等顶级模型集体“翻车”

这个问题之所以值得研究,是因为它关系到AI落地的核心挑战:

  • 在教育和无障碍应用里,AI可能无法正确识别“非标准文本”。
  • 在历史文献与科学笔记整理中,AI无法像人类一样从残缺文字中恢复含义。
  • 在安全场景里,攻击者甚至可以利用这种“盲点”绕过AI审查。

VYU团队认为,要想让AI拥有类似人类的韧性,必须重新思考VLMs如何整合视觉与文本——

也许需要新的训练数据、更注重分割的结构先验,或者全新的多模态融合方式。

更重要的是,这一结果也提醒我们:人类的阅读理解从来不是单一模态的过程,而是依赖多重感知与推理的综合能力。

论文链接:https://zjzac.github.io/publications/pdf/Visible_Yet_Unreadable__A_Systematic_Blind_Spot_of_Vision_Language_Models_Across_Writing_Systems__ArXiv.pdf

相关资讯

被AI追杀,还要解谜逃生!UCSD等发布LLM测试神器,边玩游戏边评估

你以为你在打游戏,其实是在给模型做评测! 就在两天前,由UCSD、UC伯克利等机构联合组建的GameArena团队开发了一个实时Roblox游戏「AI Space Escape」(AI空间逃脱),提供了一种与AI互动的独特体验。 现在,你想要测试不同模型的性能对比,打着游戏就能把活儿给干了。
2/13/2025 10:00:00 AM
新智元

DeepSeek-R1、o1都在及格线挣扎!字节开源全新知识推理测评集,覆盖285个学科

大模型刷榜 MMLU、屠榜 GPQA 的玩法一夜变天? ? ?
3/5/2025 8:40:00 AM
量子位

高中生用「我的世界」评测SOTA模型!Claude暂时领先,DeepSeek紧随其后

「strawberry中有多少个r」和「在LSAT法学考试中获得88分」哪个更难? 对于现如今的LMMs来说,通过各种人类「听着就头痛,看又看不懂」的基准测试似乎已是家常便饭。 比如DeepSeek-R1发布时在6大基准测试(包含AIME、MMLU、MATH-500等)中超过o1取得领先。
3/31/2025 9:20:00 AM
新智元
  • 1