AI在线 AI在线

SciArena

科学家们有话说!SciArena 平台上线,多维度评测大语言模型科学表现

一个名为 SciArena 的全新开放平台现已上线,旨在通过人类偏好评估大型语言模型(LLM)在科学文献任务中的表现。 早期结果已揭示不同模型之间存在显著的性能差距。 SciArena 由耶鲁大学、纽约大学和艾伦人工智能研究所的研究人员共同开发,旨在系统性评估专有和开源 LLM 处理科学文献任务的效果,填补了该领域系统性评估的空白。
7/3/2025 10:00:57 AM
AI在线
  • 1