AI在线 AI在线

AI 科学研究新基准:FrontierScience 评估模型推理能力

在科学研究中,推理能力至关重要。 科学家们不仅仅是回忆事实,还需提出假设、测试并修正这些假设,并在不同领域之间综合思想。 随着 AI 模型能力的提升,如何评估它们在科学研究中深度推理的能力成为了一个重要问题。

在科学研究中,推理能力至关重要。科学家们不仅仅是回忆事实,还需提出假设、测试并修正这些假设,并在不同领域之间综合思想。随着 AI 模型能力的提升,如何评估它们在科学研究中深度推理的能力成为了一个重要问题。

image.png

最近,AI 模型在一些重大领域取得了里程碑式的成就,包括在国际数学奥林匹克和信息学奥林匹克比赛中表现优异。同时,GPT-5等先进模型正在有效加速真实的科学工作流程。研究人员利用这些系统进行跨学科的文献搜索以及复杂数学证明的工作,显著缩短了从几天或几周到几小时的研究时间。

为进一步评估 AI 在科学研究中的能力,我们推出了一个新基准 ——FrontierScience。这一基准专注于评估在物理、化学和生物等领域的专家级科学推理能力。FrontierScience 包含了数百个经过专家验证的难题,并设有两个问题追踪:奥林匹克版和研究版,旨在分别测量奥林匹克风格的科学推理能力和真实世界的科学研究能力。初步评估结果显示,GPT-5.2在 FrontierScience-Olympiad 和 Research 两个模块中的表现优于其他模型。

具体而言,GPT-5.2在奥林匹克模块中得分77%,在研究模块中得分25%。尽管目前的模型已经能够支持结构化推理的研究环节,但在开放式思维能力方面仍有待提升。当前,科学家们利用这些模型加速研究流程,但在问题框架和验证方面仍需依赖人类的判断。未来,我们将继续完善 FrontierScience 基准,并扩大其应用领域,以帮助模型成为科学发现中的可靠伙伴。

划重点:  

🔍 FrontierScience 是一个新推出的基准,旨在评估 AI 在科学领域的推理能力。  

📊 初步评估显示,GPT-5.2在科学推理能力上表现突出,但仍需提升开放式思维能力。  

🚀 AI 模型的进步正在加速科学研究流程,未来将进一步优化评估基准与扩展应用领域。

相关资讯

OpenAI 升级 ChatGPT 语音模式,体验更自然对话

OpenAI 升级 ChatGPT 语音模式,体验更自然对话

OpenAI 在去年推出的 GPT-4o 基础上,再次对其高级语音模式进行了重大的更新,使得语音交流变得更加自然和贴近人类的对话方式。 这一先进的功能依托于原生的多模态模型,能够快速响应音频输入,最快在232毫秒内作出反应,平均响应时间为320毫秒,几乎与人类的对话速度不相上下。 在今年年初,OpenAI 已经对这一语音模式进行了小幅更新,改善了打断频率和口音处理。
6/9/2025 11:00:56 AM AI在线
OpenAI推全新语音转录模型gpt-4o-transcribe,语音转文字准确率飙升

OpenAI推全新语音转录模型gpt-4o-transcribe,语音转文字准确率飙升

继此前在语音 AI 领域引发一些关注后,OpenAI并未停下在该领域探索的脚步,现在这家ChatGPT的创造者再次发力,推出了三款全新的自主研发语音模型,分别为:gpt-4o-transcribe, gpt-4o-mini-transcribe and gpt-4o-mini-tts。 其中最受瞩目的当属gpt-4o-transcribe。 目前,这些新模型已经率先通过应用程序接口(API)向第三方开发者开放,开发者们可以利用它们打造更智能的应用程序。
3/21/2025 9:01:00 AM AI在线
OpenAI发布GPT-4.1系列模型:能力全面超越前代

OpenAI发布GPT-4.1系列模型:能力全面超越前代

4月15日,OpenAI 在其官方博客宣布正式发布 GPT-4.1系列模型,涵盖 GPT-4.1、GPT-4.1mini 和 GPT-4.1nano 三款子模型。 该系列在编程能力、指令理解及长文本处理等方面实现重大突破,全面超越前代 GPT-4o 及 GPT-4o mini。 其中,模型上下文窗口扩展至100万 tokens,知识库更新至2024年6月,为复杂任务提供更强支持。
4/15/2025 9:00:45 AM AI在线