领先 AI 模型在复杂物理任务中表现不佳，仍需人类助力

作者：AI在线 2025-11-24 11:06

近日，由全球超过50位物理学家联合开发的 “CritPt” 基准测试，旨在评估顶尖 AI 模型在处理未公开的复杂物理研究问题时的能力。测试的目标是模拟早期博士研究生所需的独立研究水平。尽管目前的 AI 系统如谷歌的 “Gemini3Pro” 和 OpenAI 的 “GPT-5” 被寄予厚望，但结果却令人失望。

机器人 AI写作 AI教育

图源备注:图片由AI生成，图片授权服务商Midjourney

在独立评估中，Gemini3Pro 以9.1% 的准确率名列榜首，而 GPT-5则以4.9% 的成绩紧随其后。这一结果表明，即使是表现最好的模型，仍然无法解决大多数任务，特别是在涉及更复杂的研究挑战时。CritPt 测试涵盖了来自量子物理、天体物理、高能物理和生物物理等11个领域的71个研究挑战。为了防止模型简单猜测或检索，所有问题均基于未发表的研究内容。

测试团队还采用了 “持续解决率” 这一更严格的评估标准，要求模型在五次尝试中至少四次给出正确答案。结果显示，所有模型的表现均大幅下滑，凸显了它们在复杂问题上推理的脆弱性。这种不可靠性对研究工作流程造成了挑战，模型常常会生成看似正确但实际却含有细微错误的答案，这可能误导研究人员并增加审核工作的负担。

研究团队指出，当前大模型在独立解决开放性物理问题方面尚显不足，更为现实的目标是将其视为 “研究助手”，在特定的工作流程中提供帮助。与此相符的是，OpenAI 计划在2026年9月推出一款研究实习生系统，并在2028年3月推出完全自主的研究系统。公司声称，GPT-5目前已经在帮助研究人员节省时间。

划重点:
🌟 目前顶尖 AI 模型在复杂物理任务中的表现不尽如人意，最高仅达到9.1% 的准确率。
🔍 “CritPt” 基准测试涵盖了多个物理领域，问题均为未公开研究内容。
🤖 未来 AI 更可能作为研究助手，而非完全替代人类专家，帮助自动化特定流程。

AI 离诺奖有多远?顶级模型在博士级物理基准测试“CritPt”中惨败，准确率不足10%

据 AIbase 报道，一项名为“CritPt”的全新物理基准测试结果显示，即使是目前最顶尖的人工智能模型，如 Gemini3Pro 和 GPT-5，距离成为真正的自主科学家仍有巨大的差距。该基准测试旨在将领先的 AI 模型置于博士早期研究水平进行严苛考核。 CritPt:检验 AI 的科研实战能力“CritPt”由来自全球30多个机构的50多位物理学家共同构建。

11/24/2025 11:06:33 AM AI在线

文科生也能当“码农”？Gemini 3 Pro让网页制作变简单！

谷歌最新推出的Gemini3Pro凭借其“Vibe Coding”功能，让零编程基础的用户也能通过自然语言快速生成功能性网页。近日，一位文科背景的用户亲测，仅用一句话指令，就在两分钟内完成了倒计时网页的开发，还能自动添加交互设计和隐藏彩蛋。核心亮点自然语言生成:输入“帮我做一个高考倒计时页面”，120秒内输出可分享的HTML/CSS/JS文件，并自动配上随机“牛马语录” 教育场景友好:要求“给小学生讲勾股定理”，AI生成交互动画，引导学生拖拽直角边，实时显示斜边长度与面积变化个性化创意:零代码制作婚礼电子请柬，可上传照片、填写故事，一键生成移动端适配页面，省去模板限制实测反馈文科测试者总结: 1.

11/26/2025 10:27:32 AM AI在线

谷歌在印度推出 AI Plus 订阅服务，月费仅需399卢比

谷歌近日在印度推出了 AI Plus 订阅服务，旨在为用户提供更广泛的 AI 模型和工具的访问权限。用户可以通过 Gemini 应用以及谷歌的各项服务，体验到最新的 AI 技术。谷歌产品负责人 Vikas Kansal 在博客中表示:“我们很高兴看到印度用户以多种方式使用我们的 AI 工具，我们希望让更多人受益于这些技术的进步。

12/10/2025 6:16:22 PM AI在线

领先 AI 模型在复杂物理任务中表现不佳，仍需人类助力

相关资讯

AI 离诺奖有多远?顶级模型在博士级物理基准测试“CritPt”中惨败，准确率不足10%

文科生也能当“码农”？Gemini 3 Pro让网页制作变简单！

​谷歌在印度推出 AI Plus 订阅服务，月费仅需399卢比

谷歌在印度推出 AI Plus 订阅服务，月费仅需399卢比