AI在线 AI在线

AI连电路图都看不懂?SeePhys新基准暴击多模态短板,正确率低至55%

当前顶尖AI模型是否真能“看懂”物理图像? 全谱系多模态物理推理新基准来了,结果SOTA级模型准确率都不足55%。 新基准名为SeePhys,强调了图形感知对于模型认识和理解物理世界的重要性。

当前顶尖AI模型是否真能“看懂”物理图像?

全谱系多模态物理推理新基准来了,结果SOTA级模型准确率都不足55%。

新基准名为SeePhys,强调了图形感知对于模型认识和理解物理世界的重要性。

内容涵盖经典与现代物理的各个知识等级和领域,包括从初中到博士资格考试的全谱系多模态物理问题。

图片图片

它由中山大学、苏黎世联邦理工学院、华为诺亚方舟实验室和香港大学的研究团队联合推出,于近日正式开源。

团队在实验中系统性评估了LLM/MLLM在复杂科学图表与理论推导耦合任务中的表现。

结果表明即使是Gemini-2.5-Pro和o4-mini等SOTA模型准确率都不足55%,暴露出多模态推理的巨大挑战。

团队表示,目前该基准正在ICML 2025 AI for MATH Workshop中开放评估,欢迎学界与工业界的团队来挑战。

图片图片

为什么需要SeePhys?

近年来,数学在大语言模型(LLMs)的推理能力评估中大放异彩,而物理学由于其具有与真实场景的强相关性和更复杂的图像信息,正在多模态测评中得到越来越多的重视。

物理学不仅知识体系庞大、逻辑链条复杂,而且天然地将抽象世界规律与千变万化的视觉图像紧密结合。无论是电路图、受力分析图,还是费曼图等,都挑战了多模态大模型根据图表理解世界本质规律的能力。

现有物理学基准或缺乏视觉组件,或仅覆盖单一的知识层级,难以全面评估模型的物理思维能力。

SeePhys的诞生填补了这一空白,它旨在回答当前的顶尖AI模型是否真的“看懂”了物理图像,并能像人类科学家一样结合图像进行思考。

SeePhys的独特之处在于:

  • 知识层级跨度大:从初中到博士,从经典力学到量子场论,全面覆盖了不同知识阶段和研究领域;
  • 强视觉依赖:根据图表是否包含必要解题信息进行分类,优先选择具有强视觉依赖的问题;
  • 跨模态耦合:纯多模态基准,需同步处理符号公式、几何关系与真实世界建模。

图片图片

具体来看,SeePhys具有以下几个关键属性。

首先是全谱系覆盖:

  • 2000道题目+2245张图表,涵盖7大物理领域(经典力学、电磁学、量子物理等);
  • 8个知识层级:初中、高中、奥赛(初级/高级)、本科(低年级/高年级)、硕士、博士资格考试;
  • 21类异构图表:包括电路图、时空曲率图、光电效应示意图等。

其次是不同的视觉富集程度:

  • Vision-Essential(75%):图表含解题必需信息(如坐标系数值、电路拓扑、费曼图);
  • Vision-Optional(25%):图表仅辅助说明(如场景示意图)。

还有多模态增强设计:

  • 提供纯视觉副本(问题文本与图表融合为单张高分辨率图像);
  • 四种评估模式:文本+图表(TV)、文本+描述(TC)、纯文本(TO)、纯视觉(VO)。

图片图片

实验发现

通过对28个主流模型(包括o4-mini、Gemini-2.5-Pro、Claude-3.7-Sonnet等)的大规模测试,研究团队总结以下结论:

视觉-文本对齐能力的缺陷:

  • 最佳模型Gemini-2.5-Pro准确率仅54.9%,即使是初中物理题正确率也不及70%。
  • 纯语言模型表现意外接近多模态模型,如DeepSeek-R1(42.2%) vs o3-mini(40.3%),且模型在视觉依赖性较低的问题中准确率远高于视觉信息富集的问题,暴露了当前顶尖MLLM仍存在巨大的视觉-文本对齐问题。
  • 模型对特定图表类型(波动方程图、电路图)存在系统性识别障碍。

图片图片

“看见”对于“思考”的重要性:

  • 对于视觉富集的问题,添加对图像的文本描述和直接输入图文交织问题均相对纯文本问题提升巨大。
  • 即使是非必要性图表也能辅助模型理解问题(如Claude-3.7-Sonnet在Text+Vision条件下相对Vision Only准确率提升30.2%),表明适当的视觉提示能够帮助模型理解问题本质。

图片图片

知识注入显现出边际效应:

  • 较弱模型(如Qwen2.5-VL-3B和LLaVA-OneVision-7B)由于灾难性遗忘现象,在高年级问题上精度下降幅度巨大,而较强模型则下降较为平缓,表明知识注入带来的性能提升已经初步显现边际效应。
  • 当前模型更擅长记忆而非逻辑推理(如高级奥赛题反而比知识考察更深的博资考的准确率更低)。
  • 即使是初中和高中难度的物理题也并未被AI完全解决,物理学对于MLLM依然十分困难。

错误推理模式归纳

研究团队对强模型o4-mini, Gemini-2.5-Pro与弱模型Qwen2.5-VL-3B共同错误的100个样本进行人工分析。

然后,归纳得出了9种错误的推理模式,包括视觉误读、文本误读、建模错误、错误假设、数值计算错误、过度简化、总结错误、过度思考和重复输出。

所有三个模型都表现出明显的建模缺陷(例如定理和公式误用),同时表现出相对较少的文本误读和数值计算错误。

而过度思考和过度简化的错误频率在模型之间存在显著差异,且较小的Qwen2.5-VL-3B出现了高重复输出率(21%)。

图片图片

参赛链接:https://www.codabench.org/competitions/7925/

挑战赛详细信息:https://sites.google.com/view/ai4mathworkshopicml2025/challengeICML workshop

主页:https://sites.google.com/view/ai4mathworkshopicml2025/home

论文:https://arxiv.org/pdf/2505.19099项目主页:https://github.com/SeePhys/seephys-project

相关资讯

知乎直答:AI 搜索产品从 0 到 1 实践探索

一、知乎直答产品介绍知乎直答是具有强社区属性的通用 AI 搜索产品,但并非社区版 AI 搜索。 知乎直答具有以下几大优势:认真专业:与知乎专注专业内容生产的调性相符,严格把控参考来源与质量,确保回答认真且专业。 连接创作者:可在使用中关注、与创作者交流互动获取专业见解。
1/20/2025 10:40:08 AM
王界武

o3被曝成绩「造假」,60多位数学泰斗集体被耍!OpenAI暗中操控,考卷提前看光

不久前,OpenAI在「圣诞12连更」中发布的最强推理模型「o3」,毫无疑问地惊艳了所有人。 尤其是对于新近发布的数学基准FrontierMath,其准确率相比o1直接翻了12倍。 图片要知道FrontierMath可是Epoch AI联合六十余位全世界的数学家,其中包括教授、IMO命题人、菲尔兹奖获得者,共同推出的。
1/20/2025 12:09:18 PM
新智元

活性提高42倍,ML引导的无细胞表达加速酶工程,登Nature子刊

编辑 | 萝卜皮酶是人类生活中不可或缺的天然催化剂,不仅助我们消化食物,还能增强香水香味、提高洗衣效率,甚至用于疾病治疗。 科学家们正使用酶工程创造新酶,用于吸收温室气体、降解环境毒素、研发高效药物。 但是,酶工程受限于快速生成和使用大量序列功能关系数据集进行预测设计的挑战。
1/24/2025 2:55:00 PM
ScienceAI
  • 1