AI在线 AI在线

北京大学推出新基准评测PHYBench,挑战AI物理推理能力!

最近,北京大学物理学院联合多个院系,推出了一项名为 “PHYBench” 的全新评测基准,旨在检验大模型在物理推理上的真实能力。 该项目由朱华星老师和曹庆宏副院长主导,汇聚了来自物理学院和其他学科的200多名学生,其中不少人曾在全国中学生物理竞赛中获金牌。 PHYBench 设计了500道精心制作的高质量物理题,这些题目涵盖高中物理、大学物理及物理奥林匹克竞赛的各个层面。

最近,北京大学物理学院联合多个院系,推出了一项名为 “PHYBench” 的全新评测基准,旨在检验大模型在物理推理上的真实能力。该项目由朱华星老师和曹庆宏副院长主导,汇聚了来自物理学院和其他学科的200多名学生,其中不少人曾在全国中学生物理竞赛中获金牌。

PHYBench 设计了500道精心制作的高质量物理题,这些题目涵盖高中物理、大学物理及物理奥林匹克竞赛的各个层面。与传统评测基准不同,PHYBench 不仅考察模型的答案是否正确,更引入了一种创新的评分方式 —— 表达式树编辑距离(EED Score)。这一方法通过比较模型答案与正确答案的数学表达式结构,能够更细致地反映模型的推理能力。与依赖于简单对错的传统评分方法相比,EED Score 提供了连续的分数,更能体现模型之间的差异。

物理原子3

图源备注:图片由AI生成,图片授权服务商Midjourney

在一场 “人机大战” 中,81名北大学子与顶尖 AI 模型进行较量。结果显示,最先进的 Gemini2.5pro 模型仅答对36.9% 的题目,而人类专家的平均正确率高达61.9%,显示出人类在物理推理上的明显优势。PHYBench 的研究团队对模型的错误进行了深入分析,将其推理过程分为物理感知和鲁棒推理两个关键环节,揭示了现阶段 AI 在物理推理中的瓶颈。

展望未来,PHYBench 的目标不仅是评估 AI 的物理理解能力,更希望引领 AI 在探索物理世界的潜力上取得突破。研究团队计划不断扩展数据集,挑战人类尚未解决的科学难题,推动 AI 系统朝着更高的认知能力发展。

相关资讯

打破「非此即彼」,平衡 AI 与物理,中国科学院提出建立可学习的气候模型

平衡 AI-物理模型示意图。编辑 | X人工智能(AI)迅速发展,大模型正在重新定义我们理解和应对气候挑战的方式。AI 模型已经席卷了大气科学的各个领域。今年年初,中国科学院大气物理研究所黄刚研究员团队将物理与 AI 融合,提升了数值模式的降水预报技巧。近日,黄刚团队联合中国科学院大学、青岛海洋科学与技术国家实验室、同济大学和首尔国立大学在《Advances in Atmospheric Sciences》上,发表了题为「Toward a Learnable Climate Model in the Artific
5/2/2024 5:14:00 PM
ScienceAI

MIT、IBM 团队巧妙的 AI 方法来解决「蛮力」数学问题

编辑 | X自牛顿时代以来,自然的基本定律——光学、声学、工程学、电子学,最终都归结为一组重要的、广泛的方程。现在,研究人员找到了一种新方法,可以使用受大脑启发的神经网络来比以前更有效地求解这些方程,在科学和工程领域有许多潜在的应用。相关研究以《Physics-enhanced deep surrogates for partial differential equations》为题,发布在《Nature Machine Intelligence》上。论文链接:,偏微分方程有助于对涉及多种变化率的复杂物理系统进行建
2/11/2024 3:23:00 PM
ScienceAI

类Sora模型到底懂不懂物理?字节完成系统性实验,图灵奖得主杨立昆赞转!

Sora爆火以来,“视频生成模型到底懂不懂物理规律”受到热议,但业界一直未有研究证实。 近日,字节跳动豆包大模型团队公布最新论文,研究历时8个月,围绕“视频生成模型距离世界模型有多远”首次在业界完成系统性实验并给出明确结论:视频生成模型可以记忆训练案例,但暂时还无法真正理解物理规律,做到“举一反三”。 图灵奖得主、Meta首席AI科学家杨立昆点赞并转发了该研究,表示“结论不令人意外,但很高兴终于有人做了这个尝试!
11/8/2024 9:24:00 AM
新闻助手
  • 1