AI在线 AI在线

FormulaOne

GPT-5、Grok 4、o3 Pro都零分,史上最难AI评测基准换它了

前沿 AI 模型真的能做到博士级推理吗? 前段时间,谷歌、OpenAI 的模型都在数学奥林匹克(IMO)水平测试中达到了金牌水准,这样的表现让人很容易联想到 LLM 是不是已经具备了解决博士级科研难题的推理能力? 然而,现实可能并不如想象中那么乐观。
8/15/2025 1:12:00 PM
机器之心
  • 1