AI在线 AI在线

AI 离诺奖有多远?顶级模型在博士级物理基准测试“CritPt”中惨败,准确率不足10%

据 AIbase 报道,一项名为“CritPt”的全新物理基准测试结果显示,即使是目前最顶尖的人工智能模型,如 Gemini3Pro 和 GPT-5,距离成为真正的自主科学家仍有巨大的差距。 该基准测试旨在将领先的 AI 模型置于博士早期研究水平进行严苛考核。 CritPt:检验 AI 的科研实战能力“CritPt”由来自全球30多个机构的50多位物理学家共同构建。

据 AIbase 报道,一项名为“CritPt”的全新物理基准测试结果显示,即使是目前最顶尖的人工智能模型,如 Gemini3Pro 和 GPT-5,距离成为真正的自主科学家仍有巨大的差距。该基准测试旨在将领先的 AI 模型置于博士早期研究水平进行严苛考核。

CritPt:检验 AI 的科研实战能力

“CritPt”由来自全球30多个机构的50多位物理学家共同构建。其核心目标远超对教科书知识的记忆检验,而是旨在测试 AI 是否具备解决原创性、未发表研究问题的能力——这相当于一位能力出众的物理学研究生的独立工作水平。

为了确保测试的严谨性并防止作弊,CritPt 包含的71个完整研究挑战全部基于未发表的资料,涵盖量子物理、天体物理、高能物理和生物物理等11个前沿领域。研究团队还将这些挑战进一步细分为190个较小的“检查点”,以衡量模型在解决复杂问题过程中的阶段性进展。

机器人 人工智能 AI (4)

令人警醒的初步结果:顶级模型准确率不足10%

测试的初步结果令人倍感清醒。根据人工智能分析公司(Artificial Analysis)的独立评估显示,即便是目前最强大的系统,也未能完成绝大多数任务:

  • 谷歌的“Gemini3Pro Preview”准确率仅为 9.1%。(值得注意的是,其使用的词元数量比第二名少了10%)。

  • 排名第二的 OpenAI“GPT-5.1(high)”准确率仅为 4.9%

研究结果残酷地揭示,目前的大型语言模型在面对开放式物理问题时,普遍缺乏必要的严谨性、创造性和精确性。尽管模型在更简单、定义明确的“检查点”子任务上表现出了一定进步,但在面对完整的科研挑战时却束手无策。

核心障碍:推理能力的脆弱性

研究团队引入了一项更为严格的指标——“一致解决率”(要求在五次尝试中至少做对四次),以测试模型的稳定性。在这一指标下,模型的表现全面大幅下滑。

这种稳健性的缺失给实际科研工作流程带来了严峻挑战。模型常常能得出看似合理的结果,但其中却隐藏着难以察觉的细微错误,这极易误导研究人员,并需要专家耗费大量时间进行审核复查。

未来展望:从科学家到研究助理

基于 CritPt 的测试结果,研究人员认为,在可预见的未来,更切实际的目标并非用“AI 科学家”取代人类专家,而是利用 AI 作为“研究助理”来自动化特定的工作流程步骤。

这一观点与当前的行业规划相符:OpenAI 声称 GPT-5已开始为研究人员节省时间,并计划在2026年9月前推出研究实习生系统,目标是在2028年3月前推出完全自主的研究员系统。然而,CritPt 的结果表明,要实现这一终极目标,AI 仍需跨越巨大的技术鸿沟。

相关资讯

领先 AI 模型在复杂物理任务中表现不佳,仍需人类助力

近日,由全球超过50位物理学家联合开发的 “CritPt” 基准测试,旨在评估顶尖 AI 模型在处理未公开的复杂物理研究问题时的能力。 测试的目标是模拟早期博士研究生所需的独立研究水平。 尽管目前的 AI 系统如谷歌的 “Gemini3Pro” 和 OpenAI 的 “GPT-5” 被寄予厚望,但结果却令人失望。
11/24/2025 11:06:08 AM
AI在线

谷歌Gemini 3发布后迅速登顶LMArena排行榜,马斯克与阿尔特曼齐送祝贺

谷歌发布Gemini 3后,其中Gemini 3 Pro以1501 Elo刷新LMArena公开榜单历史最高分,超越GPT-5.1、Claude 4. 5 与Grok-4.1,成为目前评分最高的多模态模型。 性能方面,Gemini 3 Pro在“人类终极考试”获37.5%、GPQA Diamond达91.9%,并在MMMU-Pro与Video-MMMU分别取得81%与87.6%,显示其在科学、数学及视频理解任务上全面领先。
11/24/2025 9:26:48 AM
AI在线

文科生也能当“码农”?Gemini 3 Pro让网页制作变简单!

谷歌最新推出的Gemini3Pro凭借其“Vibe Coding”功能,让零编程基础的用户也能通过自然语言快速生成功能性网页。 近日,一位文科背景的用户亲测,仅用一句话指令,就在两分钟内完成了倒计时网页的开发,还能自动添加交互设计和隐藏彩蛋。 核心亮点  自然语言生成:输入“帮我做一个高考倒计时页面”,120秒内输出可分享的HTML/CSS/JS文件,并自动配上随机“牛马语录”  教育场景友好:要求“给小学生讲勾股定理”,AI生成交互动画,引导学生拖拽直角边,实时显示斜边长度与面积变化  个性化创意:零代码制作婚礼电子请柬,可上传照片、填写故事,一键生成移动端适配页面,省去模板限制实测反馈  文科测试者总结:  1.
11/26/2025 10:27:32 AM
AI在线