AI在线 AI在线

开源模型首次物理奥赛夺金!上海AI Lab 235B模型击败GPT5和Grok4

P1团队 投稿量子位 | 公众号 QbitAI开源模型首次在国际物理奥林匹克竞赛夺金了。 来自上海AI Lab的P1-235B-A22B取得了21.2分的成绩,成功跨越金牌线。 在覆盖2024-2025年全球13场顶级物理竞赛的HiPhO基准测试中,P1-235B-A22B获12金1银,与谷歌Gemini-2.5-Pro并列奖牌榜第一。

P1团队 投稿量子位 | 公众号 QbitAI

开源模型首次在国际物理奥林匹克竞赛夺金了。

来自上海AI Lab的P1-235B-A22B取得了21.2分的成绩,成功跨越金牌线。

在覆盖2024-2025年全球13场顶级物理竞赛的HiPhO基准测试中,P1-235B-A22B获12金1银,与谷歌Gemini-2.5-Pro并列奖牌榜第一。

开源模型首次物理奥赛夺金!上海AI Lab 235B模型击败GPT5和Grok4

这个成绩超越了GPT-5的11金以及Grok-4的10金,标志着开源模型在物理推理能力上已经达到甚至超越闭源模型的水平。

同时,团队提出的协同进化多智能体系统PhysicsMinions,在IPhO 2025及HiPhO综合得分上双双问鼎,展现了“模型+系统”框架在应对复杂科学问题的卓越潜力。

物理推理是理解与塑造现实世界的核心能力。国际物理奥林匹克(IPhO)等顶尖赛事,以其对复杂推理和深度物理理解的高标准,成为检验物理智能对现实认知能力的重要标尺。AI在此类竞赛中夺得金牌,不仅是实现通用物理智能道路上的关键里程碑,更表明模型已初步具备应对现实世界中复杂物理问题的潜力。

为了准确评估物理奥赛的表现,研究团队构建了HiPhO(High School Physics Olympiad)基准测试,这是首个专注于最新物理奥赛、采用人类对齐评估的基准。

HiPhO涵盖了2024-2025年最新的13场奥林匹克级别的物理竞赛,包括 IPhO、APhO、EuPhO 等国际和区域赛事。评估时采用官方评分标准,对答案和过程进行细粒度评分,与人类评审严格对齐,确保得分准确。由此,每个模型的考试得分可直接与人类选手以及金银铜牌分数线进行比较。

开源模型首次物理奥赛夺金!上海AI Lab 235B模型击败GPT5和Grok4

△HiPhO 基准测试概览,包含2024-2025年13场物理奥赛,覆盖国际和区域竞赛。

研究团队通过高质量的提取和标注流程,构建了包含数千条奥赛级别题目的训练数据集。每条数据均具有完整的上下文信息、可验证答案以及标准解题过程,用于强化学习训练。

P1系列模型采用多阶段强化学习流程进行训练。为了实现稳定高效的训练,团队在每个阶段应用两项关键策略:

  • 上下文窗口扩展:
  • 随着训练的推进,逐步扩展模型最大生成长度,使模型能够探索更长的推理链。这种扩展提高了高复杂度问题的可解性,减少了因截断导致的错误。
  • 通过率过滤:
  • 在训练前,基于通过率统计对数据进行筛选,排除过于简单或过于困难的任务。

基于这种多阶段强化学习策略,P1模型实现了在基座语言模型的基础上长期、持续的性能提升

开源模型首次物理奥赛夺金!上海AI Lab 235B模型击败GPT5和Grok4

为了突破单模型的极限,研究团队开发了PhysicsMinions,这是一个专为物理推理设计的协同进化多智能体系统。它由三个交互式模块组成,通过自我验证与反思迭代,实现了物理推理能力的跃升:

  • 视觉模块(Visual Studio)
  •  – 观察和验证多模态问题,提取结构化的视觉信息(在P1模型实验中未使用视觉模块)。
  • 逻辑模块(Logic Studio)
  •  – 生成初始解决方案,并通过自我改进和自我反思逐步改进解答。
  • 审核模块(Review Studio)
  •  – 执行双阶段验证:物理验证器检查物理一致性(比如常数、单位),而通用验证器检查逻辑、推理和计算。

如果任一阶段验证失败,详细的错误报告会被发送回逻辑模块,进行反思修订解答。通过这种协同进化协作,PhysicsMinions 持续提升复杂物理问题的推理质量和鲁棒性。

开源模型首次物理奥赛夺金!上海AI Lab 235B模型击败GPT5和Grok4

△PhysicsMinions 协同进化多智能体系统概览,展示了三个模块之间的交互流程。

下表总结了在 HiPhO 基准上所有竞赛的平均表现,展示出 P1 系列模型和多智能体系统的出色性能。

开源模型首次物理奥赛夺金!上海AI Lab 235B模型击败GPT5和Grok4

△P1 系列模型在 HiPhO 基准测试上的综合表现,包括与开源和闭源模型的对比。

P1-235B-A22B展现出卓越的物理推理能力,与Gemini-2.5-Pro和Gemini-2.5-Flash-Thinking并列第一,斩获12金1银,金牌数超越GPT-5(11金)、Grok-4(10金)和Claude-4-Sonnet-Thinking(8金)等主流闭源模型。

在IPhO 2025上,P1-235B-A22B得分21.2/30,成为首个也是唯一获得金牌的开源模型。

P1-30B-A3B在HiPhO基准上同样表现出色,获得8金4银1铜,在现有开源模型中排名第三。

仅次于参数规模更大的Qwen3-235B-A22B-Thinking-2507DeepSeek-R1,甚至超越了o4-miniClaude-4-Sonnet等闭源模型,突显了其在中等规模下的强大物理推理能力。

配备PhysicsMinions多智能体系统后,P1模型性能实现跨越式提升。P1-235B-A22B模型在 HiPhO 基准上取得了35.9分的平均得分,而配备 PhysicsMinions 后,其性能大幅提升至38.4分,在所有模型中取得综合第一,超越了Gemini-2.5-Pro(37.7)和 GPT-5(37.4)等顶尖闭源模型。

除了强大的物理推理能力,P1模型在多个领域的能力也得到进一步提升。如下图所示,P1-30B-A3B相比于基座模型Qwen3-30B-A3B-Thinking-2507,在数学、代码、STEM等基准测试上均取得显著优势,证明了物理推理能力的强大泛化性。

开源模型首次物理奥赛夺金!上海AI Lab 235B模型击败GPT5和Grok4

Project Page: https://prime-rl.github.io/P1Github: https://github.com/PRIME-RL/P1

HiPhO:论文:https://arxiv.org/abs/2509.07894数据集:https://huggingface.co/datasets/SciYu/HiPhO排行榜:https://phyarena.github.io/

PhysicsMinionshttps://arxiv.org/abs/2509.24855

相关资讯

AI革新科研模式,上海AI Lab「AI4S攀登者行动计划」开放申请

驱动科学研究的人工智能(AI for Science,以下简称 AI4S)正逐渐改变科学研究的模式,然而学科之间的「烟囱式」发展模式,既容易造成资源分散和重复投入,也在一定程度上制约颠覆性成果涌现。 同时,由于 AI4S 具有「极宏观拓展、极微观深入、极端条件迈进、极综合交叉」的特性,使得具有重大意义的变革性突破,难以从现有组织模式中诞生——这类突破超出了单一团队的研究能力,需要依赖大规模研究、工程与系统协作,而早期价值又难以被商业风投支持——「AI4S 攀登者行动计划」旨在解决这一难题。 如果你渴望突破 AI4S 传统研究模式的限制,欢迎申请加入「AI4S 攀登者行动计划」,与我们共同推动下一代技术变革。
1/24/2025 5:36:00 PM
机器之心

磐石·科学基础大模型:AI赋能范式重塑,科学研究开启无限可能

人工智能正在重塑科研底层逻辑、加速科学发现,“人工智能 科学”已成为趋势,为解决人类面临的重大科学技术难题提供了前所未有的机遇。 7月26日,中国科学院联合团队研发的“磐石·科学基础大模型”在2025世界人工智能大会上正式发布。 “磐石·科学基础大模型”是采用专业科学知识和数据进行训练、服务于科学任务的智能底座,实现了对波、谱、场等多种科学模态数据的深入理解,具备科学文献萃取融合、科学知识表征推理和科学工具编排规划等核心能力,目标为各领域科技创新提供“坚如磐石”的智能支撑。
7/28/2025 8:45:31 AM
梦晨

专访MIT贾皓钧&段辰儒博士:AI4S时代的化学材料发现——「AI炼金术」

作者 | MIT 贾皓钧&段辰儒博士编辑 | 凯霞大家可能从小就听说过爱迪生尝试上千种材料作为灯丝,凭着不断试错方法以及永不言弃的精神,最后研发出日用白炽灯的故事——天才靠的是百分之一的灵感和百分之九十九的汗水。然而,随着科学的进步和现代社会的发展,新型材料的研发变得愈发复杂。现在,研究者经常需要在上百万大小的材料空间同时优化数十个不同的性质,以寻找适用于电池、半导体、催化剂和合金等领域的新材料。如果说爱迪生需要 99% 的汗水,那现在研究者可能需要 99.99% 的汗水。而新型材料的研发历程就有点像人们去「沙滩」
10/19/2023 6:07:00 PM
ScienceAI
  • 1