AI在线 AI在线

2025年了,AI还看不懂时钟!90%人都能答对,顶尖AI全军覆没

90%人都会的读钟题,顶尖AI全军覆没! AI基准创建者、连续创业者Alek Safar推出了视觉基准测试ClockBench,专注于测试AI的「看懂」模拟时钟的能力。 结果让人吃惊:人类平均准确率89.1%,而参与测试的11个主流大模型最好的成绩仅13.3%。

90%人都会的读钟题,顶尖AI全军覆没!

AI基准创建者、连续创业者Alek Safar推出了视觉基准测试ClockBench,专注于测试AI的「看懂」模拟时钟的能力。

结果让人吃惊:

人类平均准确率89.1%,而参与测试的11个主流大模型最好的成绩仅13.3%。

图片图片

就难度而言,这与「AGI终极测试」ARC-AGI-2相当,比「人类终极考试」更难。

图片图片

ClockBench共包含180个时钟、720道问题,展示了当前前沿大语言模型(LLM)的局限性。

图片图片

论文链接:https://clockbench.ai/ClockBench.pdf

虽然这些模型在多项基准上展现出惊人的推理、数学与视觉理解能力,但这些能力尚未有效迁移到「读表」。可能原因:

训练数据未覆盖足够可记忆的时钟特征与时间组合,模型不得不通过推理去建立指针、刻度与读数之间的映射。

时钟的视觉结构难以完整映射到文本空间,导致基于文本的推理受限。

也有好消息:表现最好的模型已展现出一定的视觉推理(虽有限)。其读时准确率与中位误差均显著优于随机水平。

接下来需要更多研究,以判定这些能力能否通过扩大现有范式(数据、模型规模、计算/推理预算)来获得,还是必须采用全新的方法。

ClockBench如何拷打AI?

在过去的几年里,大语言模型(LLM)在多个领域都取得了显著进展,前沿模型很快在许多流行基准上达到了「饱和」。

图片图片

甚至是那些专门设计来同时考察「专业知识与强推理能力」的最新基准,也出现了快速突破。

一个典型例子是Humanity’s Last Exam):

在该基准上,OpenAI GPT-4o的得分仅2.7%  ,而xAI Grok 4却提升到  25.4%;

结合工具使用等优化手段后,结果甚至能进入40–50%区间。

然而,我们仍然发现一些对人类而言轻而易举的任务,AI表现不佳。

图片图片

因此,出现了SimpleBench以及ARC-AGI这类基准,它们被专门设计为:对普通人来说很简单,但对LLM却很难。

ClockBench正是受这种「人类容易,AI困难」的思路启发而设计。

研究团队基于一个关键观察:对推理型和非推理型模型来说,读懂模拟时钟同样很难

因此,ClockBench构建了一个需要高度视觉精度和推理能力的稳健数据集。

ClockBench究竟包含什么?

  • 36个全新设计的定制表盘,每个表盘生成5个样本时钟
  • 总计180个时钟,每个时钟设置4个问题,共720道测试题
  • 测试了来自6家实验室的11个具备视觉理解能力的模型,并招募5名人类参与者对比

图片图片

问题分为4大类:

1. 判断时间是否有效

有一个时钟🕰️,大模型需要判断这个时钟显示的时间是不是有效的。

图片

如果时间是合法的,大模型需要把它分解成几个部分,并以JSON格式输出:

小时  (Hours)、分钟  (Minutes)、秒  (Seconds)、日期  (Date)、月份  (Month)、 星期几  (Day of the week)

只要表盘包含上述信息,就要求LLM一并输出。

2. 时间的加减

该任务要求LLM对给定时间进行加减,得到新时间。

3. 旋转时钟指针

这个任务是关于操作时钟的指针。该任务要求模型选择时/分/秒针,并按指定角度顺时针或逆时针旋转。

4. 时区转换

这个任务是关于不同地方的时间🌍。比如,给定纽约的夏令时,模型需推算不同地点的当地时间。

结果出乎意料

结果有哪些出乎意料的发现?

模型与人类不仅正确率差距巨大,错误模式也截然不同:

  • 人类误差中位数仅3分钟,最佳模型却高达1小时
  • 较弱模型的误差约3小时,结合12小时制表盘循环特性,相当于随机噪声

图片图片

另一个有趣发现是,某些钟表特征的读取难度存在显著差异:

  • 在读取非常见的复杂钟表及高精度要求场景时,模型表现最差
  • 罗马数字与环形数字的朝向最难识别,其次是秒针、杂乱背景和镜像时钟

图片图片

除了读时,其他问题对模型而言反而更简单:

  • 表现最佳的模型能高精度回答时间加减、指针旋转角度或时区转换问题,部分场景准确率可达100%

图片图片

在不同模型的表现对比中,总体趋势是:规模更大的推理型模型普遍优于规模较小或非推理型模型

不过,也出现了一些值得注意的现象:

  • 谷歌的Gemini 2.5系列模型在各自类别中往往领先于其他模型;
  • Anthropic系列模型则普遍落后于同类模型;
  • Grok 4的表现远低于预期,与其规模和通用能力并不相称。

图片图片

GPT-5排名第三,且推理预算对结果影响不大(中等与高预算得分高度接近)值得思考的是:何种因素制约了GPT-5在此类视觉推理任务的表现?

在原始数据集中,180个时钟里有37个属于无效(不可能存在)的时间。无论是人类还是模型,在识别「无效时间」时的成功率都更高:

  • 人类差异不大:在无效时钟上的准确率为96.2%,而在有效时钟上为89.1%
  • 模型差异明显:在无效时钟上的准确率平均高出349%,并且所有模型在这类任务中的表现都更好;
  • Gemini 2.5 Pro依旧是总体最佳模型,准确率达到40.5%
  • Grok 4则是一个异常值:它在识别无效时钟上的准确率最高,达到64.9%,但问题在于,它把整个数据集里63.3%的时钟都标记为无效,这意味着结果很可能是「随机撞对」。

在模型能够正确读时的钟面上,存在明显的重叠现象:

  • 61.7%的时钟没有被任何模型正确读出;
  • 38.3%的时钟至少被1个模型读对;
  • 22.8%的时钟至少被2个模型读对;
  • 13.9%的时钟至少被3个模型读对;
  • 8.9%的时钟至少被4个或以上的模型读对。

整体来看,分布情况和有效性数据表明:模型的正确答案集中在某一小部分时钟上,而不是均匀分布。

参考资料:

https://x.com/alek_safar/status/1964383077792141390

https://clockbench.ai/

相关资讯

字节要亲手打造AGI了!神秘“Seed Edge”项目被曝光,已设置5大研究方向,探索下一代AI技术,算力不用愁!

编辑 | 伊风出品 | 51CTO技术栈(微信号:blog51cto)中国大厂开始发力AGI了! 据媒体报道,字节跳动 AGI 研究团队浮出水面,揭开了字节AGI的秘密布局! 报道称:1 月下旬,字节正式设立代号为“Seed Edge”的研究项目,核心目标是做比预训练和大模型迭代更长期、更基础的 AGI 前沿研究。
1/23/2025 2:02:14 PM
伊风

刚刚,奥特曼给出AGI三个判断:Scaling Law保持不变,没理由放缓投资

刚刚,OpenAI奥特曼的最新AI观察出炉:Scaling Law将保持不变,短时间内没有理由停止对AI进行指数增长级的投资! 具体共有3点1、AI能力与投入资源呈对数关系2、AI使用成本每年降低约10倍3、AI带来的社会经济价值呈超级指数增长图片在最新发布的博客里,他给出对于AGI当下及未来的细致判断。 等到2035年,每个人都可以调动相当于2025年所有人智慧总和的能力。
2/10/2025 9:53:19 AM

「硅基大脑」来了,UCSF华人实验室打造!神经科学未来不是碳基?

AI起源于人类利用「电脑」模拟「大脑」,希望计算机和人类一样可以处理各种任务。 或许,计算机还没有产生和人类一样的「智慧」。 但不妨设想一下「硅基大脑」—— 高级的AI模型,它能够破译人类的思维,让「哑巴」重新说话,也许有朝一日,甚至能预测大脑的「一举一动」。
2/17/2025 8:00:00 AM
新智元

10²⁶参数,AGI还需70年!清华人大预测届时GPU总价达4000万倍苹果市值

AGI,就在今年;诺奖级AI,将2026年-2027年诞生。 不论是奥特曼,还是Anthropic首席执行官Dario Amodei,AI界科技大佬纷纷认为「超级智能」近在眼前。 甚至,几天前,纽约时报的一篇文章称,美国政府知道AGI要来,并有了相应的想法和对策。
3/10/2025 9:42:00 AM
新智元

超越ChatGPT:通向AGI的五个最严峻挑战

但像我们这样看着《星际迷航》、《银翼杀手》或《2001太空漫游》长大的人知道,这只是个开始。  与那些虚构世界中的AI,甚至是人类自己相比,今天的AI无法完全探索、交互并从这个世界中学习。 如果它可以做到,就像《星际迷航》中那个非常有用的机器人Data(或一个人类)一样,它可以学会如何解决任何问题或执行任何工作,而不仅仅局限于它最初被训练来做的事情。
3/14/2025 1:12:53 PM
Bernard Marr

纽约时报重磅曝料:特朗普任期内将实现AGI,美国政府早知AGI即将降临!

美国政府知道AGI即将到来,而且他们还要率先实现AGI。 就在最近,纽约时报刊登了一篇拜登政府AI顾问本·布坎南所接受的访谈,曝出了不少重磅信息。 比如:美国政府是如何为AGI做准备的?
3/17/2025 8:00:00 AM
新智元

纽约时报作家被AGI「洗脑」!AI横扫奥数金牌、编写95%代码,人类却毫无准备

一觉醒来,离AGI又近了一步。 纽约时报专栏作家Kevin Roose,发帖表示自己被AGI「洗脑」了,现在对AGI深有感触。 强人工智能即将到来,但人类尚未做好准备。
3/17/2025 9:32:32 AM
新智元

别只看LLM!为什么知识图谱才是通往AGI的关键一步

智能时代,我们已经习惯让AI为我们提供各种服务。  当你问DeepSeek:"北京的天气怎么样"时,它能精准回答;当你让ChatGPT"用简单语言解释相对论",它能流畅作答...  这些AI能力的背后,除了神经网络的感知能力,还有一个关键支撑技术——知识图谱。
4/1/2025 9:17:10 AM
大数据AI智能圈

通用人工智能将如何重塑未来?

通用人工智能(AGI)是一种人工智能,具有与人类一样的获取知识、应用知识解决问题和理解能力。 与专门处理受限任务的狭义人工智能系统不同,AGI寻求发展先进的认知技能,以促进在不同情况下完成复杂任务。 AGI是一种人工智能,试图模仿人类的思维过程、解决问题的能力和决策能力。
5/23/2025 6:30:00 AM
chris han

Meta闪电分拆AI帝国!Llama团队一劈为二:一边狂卷AGI,一边死磕OpenAI

2025 年 5 月,据 Axios 报道,Meta 正式将其 AI 部门拆分为两个独立方向:面向消费者的AI产品团队,以及追求通用人工智能(AGI)的“AGI Foundations”基础组。 过去几年,Meta在AI领域的策略始终被认为偏“研究导向”:大模型Llama的发布频率、论文产出数量、开源社区活跃度,都表现出一种“与学界赛跑”的姿态。 但与此同时,用户端产品的AI体验却始终模糊——Llama虽强,却“藏”在模型库里,普通用户几乎无感。
5/28/2025 6:41:37 PM

图灵奖得主、AI教父Bengio:我改变了科研方向,哪怕与此前信念背离,也要尽己所能降低AI失控的灾难风险;AGI最快五年降临

编辑 | 云昭6月6日,年逾花甲的三大“AI教父”之一的Yoshua Bengio(小编心中的科研偶像之一),如约出现在2025智源大会上的现场荧幕中。 大师眼中的GPT究竟是什么样子? 我们又该打造怎样的AI?
6/9/2025 8:39:10 AM
云昭

RLHF已死,RLVR引爆AGI革命!Claude 4核心成员万字对谈

在Dwarkesh Patel主持的节目中,Anthropic的Sholto Douglas、Trenton Bricken等人,一起讨论了Claude 4是如何思考的。 三人私交甚好,聊了2小时20多分钟,主要集中在4个话题:1. 过去一年中人工智能研究的变化;2.
6/9/2025 8:48:00 AM

哈佛重磅预警!经济学家预言:全球AI失业潮2年来袭,世界经济大崩盘在即

AI接管全员工作,这个话题彻底火了。 甚至连哈佛商学院都做了一个Youtube视频,预警如果AI接管人类的所有工作时,将会发生什么。 在访谈中,弗吉尼亚大学经济学教授、领先的AI经济学家 Anton Korinek揭示了为何AGI可能在短短2-5年内实现。
6/24/2025 9:01:57 AM

苹果一口咬死AI不会思考!OpenAI前高管直接开怼:AGI已来,别再酸了

最近,苹果发布了一篇论文,引发了关于AI是否真正在推理的激烈讨论。 它提出了一个尖锐问题:当前的推理模型,是否已经触及能力的天花板? 与此同时,OpenAI前研究主管Bob McGrew则持完全不同的态度。
6/30/2025 9:05:00 AM

奥特曼爆冷改口:AGI没用?MIT预测2028年降临,50%概率

算力膨胀、模型堆叠,提示词像燃料一样被反复输入。 AI的脚步没有停下,反而越来越快。 有人预言,AGI遥遥无期,至少要等上半个世纪。
8/14/2025 6:16:24 PM

Hinton突然对AGI乐观了!“Ilya让他看到了什么吧…”

Hinton突然对AGI变乐观了。 对于AI,他几周前还觉得是养虎为患,最新采访却改口说是一种母亲和婴儿之间的亲密共生关系。 大多数专家认为5-10年后人工智能会比人类更聪明。
9/5/2025 9:04:00 AM

OpenAI董事长:太多AI应用是在表演!AI泡沫远比想象更严重,会有人赔大本;应用不应追求AGI;微调或不再重要;支持抽成模式

编辑 | 云昭采访 | Decoder 出品 | 51CTO技术栈(微信号:blog51cto)“应用型 AI 公司不应该追求 AGI。 ”“我们确实也处在一个泡沫期,会有人赔掉大量资金。 ”“我们平台上的某个 agent,每生成一条回复,背后可能会触发 20 多次推理调用。
9/15/2025 3:14:27 PM
云昭

AI爆发不会带来GDP爆涨!AI大神罕见暴论:强化学习糟透了!互联网数据很烂!曝未来新训练范式:反思型监督、预训练是一场劣质进化

编辑 | 云昭出品 | 51CTO技术栈(微信号:blog51cto)“现在的互联网训练数据烂到离谱! ”“强化学习远比人们想象要糟糕得多! ”“AGI 仍然还有十年之遥!
10/18/2025 8:43:14 PM
云昭
  • 1