AI在线 AI在线

EvaLearn

EvaLearn:AI下半场的全新评测范式!

在三个月前,OpenAI 研究员 Shunyu Yao 发表了一篇关于 AI 的下半场的博客引起了广泛讨论。 他在博客中指出,AI 研究正在从 “能不能做” 转向 “学得是否有效”,传统的基准测试已经难以衡量 AI 的实际效用,他指出现有的评估方式中,模型被要求独立完成每个任务,然后取平均得分。 这种方式忽略了任务之间的连贯性,无法评估模型长期适应能力和更类人的动态学习能力。
7/28/2025 6:57:00 PM
机器之心
  • 1