AI在线 AI在线

领先 AI 模型在复杂物理任务中表现不佳,仍需人类助力

近日,由全球超过50位物理学家联合开发的 “CritPt” 基准测试,旨在评估顶尖 AI 模型在处理未公开的复杂物理研究问题时的能力。 测试的目标是模拟早期博士研究生所需的独立研究水平。 尽管目前的 AI 系统如谷歌的 “Gemini3Pro” 和 OpenAI 的 “GPT-5” 被寄予厚望,但结果却令人失望。

近日,由全球超过50位物理学家联合开发的 “CritPt” 基准测试,旨在评估顶尖 AI 模型在处理未公开的复杂物理研究问题时的能力。测试的目标是模拟早期博士研究生所需的独立研究水平。尽管目前的 AI 系统如谷歌的 “Gemini3Pro” 和 OpenAI 的 “GPT-5” 被寄予厚望,但结果却令人失望。

机器人 AI写作 AI教育

图源备注:图片由AI生成,图片授权服务商Midjourney

在独立评估中,Gemini3Pro 以9.1% 的准确率名列榜首,而 GPT-5则以4.9% 的成绩紧随其后。这一结果表明,即使是表现最好的模型,仍然无法解决大多数任务,特别是在涉及更复杂的研究挑战时。CritPt 测试涵盖了来自量子物理、天体物理、高能物理和生物物理等11个领域的71个研究挑战。为了防止模型简单猜测或检索,所有问题均基于未发表的研究内容。

测试团队还采用了 “持续解决率” 这一更严格的评估标准,要求模型在五次尝试中至少四次给出正确答案。结果显示,所有模型的表现均大幅下滑,凸显了它们在复杂问题上推理的脆弱性。这种不可靠性对研究工作流程造成了挑战,模型常常会生成看似正确但实际却含有细微错误的答案,这可能误导研究人员并增加审核工作的负担。

研究团队指出,当前大模型在独立解决开放性物理问题方面尚显不足,更为现实的目标是将其视为 “研究助手”,在特定的工作流程中提供帮助。与此相符的是,OpenAI 计划在2026年9月推出一款研究实习生系统,并在2028年3月推出完全自主的研究系统。公司声称,GPT-5目前已经在帮助研究人员节省时间。

划重点:

🌟 目前顶尖 AI 模型在复杂物理任务中的表现不尽如人意,最高仅达到9.1% 的准确率。  

🔍 “CritPt” 基准测试涵盖了多个物理领域,问题均为未公开研究内容。  

🤖 未来 AI 更可能作为研究助手,而非完全替代人类专家,帮助自动化特定流程。

相关资讯

AI 离诺奖有多远?顶级模型在博士级物理基准测试“CritPt”中惨败,准确率不足10%

AI 离诺奖有多远?顶级模型在博士级物理基准测试“CritPt”中惨败,准确率不足10%

据 AIbase 报道,一项名为“CritPt”的全新物理基准测试结果显示,即使是目前最顶尖的人工智能模型,如 Gemini3Pro 和 GPT-5,距离成为真正的自主科学家仍有巨大的差距。 该基准测试旨在将领先的 AI 模型置于博士早期研究水平进行严苛考核。 CritPt:检验 AI 的科研实战能力“CritPt”由来自全球30多个机构的50多位物理学家共同构建。
11/24/2025 11:06:33 AM AI在线
文科生也能当“码农”?Gemini 3 Pro让网页制作变简单!

文科生也能当“码农”?Gemini 3 Pro让网页制作变简单!

谷歌最新推出的Gemini3Pro凭借其“Vibe Coding”功能,让零编程基础的用户也能通过自然语言快速生成功能性网页。 近日,一位文科背景的用户亲测,仅用一句话指令,就在两分钟内完成了倒计时网页的开发,还能自动添加交互设计和隐藏彩蛋。 核心亮点  自然语言生成:输入“帮我做一个高考倒计时页面”,120秒内输出可分享的HTML/CSS/JS文件,并自动配上随机“牛马语录”  教育场景友好:要求“给小学生讲勾股定理”,AI生成交互动画,引导学生拖拽直角边,实时显示斜边长度与面积变化  个性化创意:零代码制作婚礼电子请柬,可上传照片、填写故事,一键生成移动端适配页面,省去模板限制实测反馈  文科测试者总结:  1.
11/26/2025 10:27:32 AM AI在线
​谷歌在印度推出 AI Plus 订阅服务,月费仅需399卢比

​谷歌在印度推出 AI Plus 订阅服务,月费仅需399卢比

谷歌近日在印度推出了 AI Plus 订阅服务,旨在为用户提供更广泛的 AI 模型和工具的访问权限。 用户可以通过 Gemini 应用以及谷歌的各项服务,体验到最新的 AI 技术。 谷歌产品负责人 Vikas Kansal 在博客中表示:“我们很高兴看到印度用户以多种方式使用我们的 AI 工具,我们希望让更多人受益于这些技术的进步。
12/10/2025 6:16:22 PM AI在线