北京大学推出新基准评测PHYBench，挑战AI物理推理能力！

作者：AI在线 2025-04-29 11:00

最近，北京大学物理学院联合多个院系，推出了一项名为 “PHYBench” 的全新评测基准，旨在检验大模型在物理推理上的真实能力。该项目由朱华星老师和曹庆宏副院长主导，汇聚了来自物理学院和其他学科的200多名学生，其中不少人曾在全国中学生物理竞赛中获金牌。 PHYBench 设计了500道精心制作的高质量物理题，这些题目涵盖高中物理、大学物理及物理奥林匹克竞赛的各个层面。

最近，北京大学物理学院联合多个院系，推出了一项名为 “PHYBench” 的全新评测基准，旨在检验大模型在物理推理上的真实能力。该项目由朱华星老师和曹庆宏副院长主导，汇聚了来自物理学院和其他学科的200多名学生，其中不少人曾在全国中学生物理竞赛中获金牌。

PHYBench 设计了500道精心制作的高质量物理题，这些题目涵盖高中物理、大学物理及物理奥林匹克竞赛的各个层面。与传统评测基准不同，PHYBench 不仅考察模型的答案是否正确，更引入了一种创新的评分方式 —— 表达式树编辑距离（EED Score）。这一方法通过比较模型答案与正确答案的数学表达式结构，能够更细致地反映模型的推理能力。与依赖于简单对错的传统评分方法相比，EED Score 提供了连续的分数，更能体现模型之间的差异。

物理原子3

图源备注：图片由AI生成，图片授权服务商Midjourney

在一场 “人机大战” 中，81名北大学子与顶尖 AI 模型进行较量。结果显示，最先进的 Gemini2.5pro 模型仅答对36.9% 的题目，而人类专家的平均正确率高达61.9%，显示出人类在物理推理上的明显优势。PHYBench 的研究团队对模型的错误进行了深入分析，将其推理过程分为物理感知和鲁棒推理两个关键环节，揭示了现阶段 AI 在物理推理中的瓶颈。

展望未来，PHYBench 的目标不仅是评估 AI 的物理理解能力，更希望引领 AI 在探索物理世界的潜力上取得突破。研究团队计划不断扩展数据集，挑战人类尚未解决的科学难题，推动 AI 系统朝着更高的认知能力发展。

英伟达推出新型模型 Cosmos-Reason1 ，让 AI 更好理解物理世界

近日，英伟达发布了其最新的 Cosmos-Reason1系列模型，旨在提升人工智能在物理常识和具身推理方面的能力。随着人工智能在语言处理、数学及代码生成等领域取得显著进展，如何将这些能力扩展到物理环境中成为了一大挑战。物理 AI（Physical AI）不同于传统的人工智能，它依赖于视频等感官输入，并结合现实物理法则来生成反应。

5/21/2025 4:00:55 PM

AI在线

打破「非此即彼」，平衡 AI 与物理，中国科学院提出建立可学习的气候模型

平衡 AI-物理模型示意图。编辑 | X人工智能（AI）迅速发展，大模型正在重新定义我们理解和应对气候挑战的方式。AI 模型已经席卷了大气科学的各个领域。今年年初，中国科学院大气物理研究所黄刚研究员团队将物理与 AI 融合，提升了数值模式的降水预报技巧。近日，黄刚团队联合中国科学院大学、青岛海洋科学与技术国家实验室、同济大学和首尔国立大学在《Advances in Atmospheric Sciences》上，发表了题为「Toward a Learnable Climate Model in the Artific

5/2/2024 5:14:00 PM

ScienceAI

MIT、IBM 团队巧妙的 AI 方法来解决「蛮力」数学问题

编辑 | X自牛顿时代以来，自然的基本定律——光学、声学、工程学、电子学，最终都归结为一组重要的、广泛的方程。现在，研究人员找到了一种新方法，可以使用受大脑启发的神经网络来比以前更有效地求解这些方程，在科学和工程领域有许多潜在的应用。相关研究以《Physics-enhanced deep surrogates for partial differential equations》为题，发布在《Nature Machine Intelligence》上。论文链接：，偏微分方程有助于对涉及多种变化率的复杂物理系统进行建

2/11/2024 3:23:00 PM

ScienceAI

北京大学推出新基准评测PHYBench，挑战AI物理推理能力！

相关资讯

英伟达推出新型模型 Cosmos-Reason1 ，让 AI 更好理解物理世界

打破「非此即彼」，平衡 AI 与物理，中国科学院提出建立可学习的气候模型

MIT、IBM 团队巧妙的 AI 方法来解决「蛮力」数学问题