AI在线 AI在线

Scientists’ First Exam

真实科研水平集体不及格!全新基准SFE给主流多模态LLM来了波暴击

当前,驱动科学研究的人工智能(AI for Science,AI4S)在单点取得了可观的进展,实现了工具层面的革新,然而要成为「革命的工具」,需要采用「通专融合 AGI」方式。 大模型的突破性能力逐步改变科学研究的模式,而大模型在科学领域的深度应用亟需科学的评测支撑。 现有科学评测面临着两大痛点:现有测试多聚焦知识记忆,而真实科研需要从原始科学数据感知到复杂推理的全链条能力;天文、地球、生命和材料等领域存在大量未开发的多模态数据分析需求。
7/10/2025 10:20:00 AM
机器之心
  • 1