首个 AI Kaggle 特级大师诞生，OpenAI 的 o1-preview 夺 7 金封王

作者：故渊 2024-10-12 01:51

科技媒体 The Decoder 昨日（10 月 11 日）发布博文，报道称 OpenAI 公司推出 MLE-bench 新基准，旨在评估 AI 智能体在开发机器学习解决方案方面的能力。该基准包括 75 个 Kaggle 竞赛，旨在衡量自主 AI 系统在机器学习工程中的进展。这些竞赛涵盖了多个领域，包括自然语言处理、计算机视觉和信号处理等等。

科技媒体 The Decoder 昨日（10 月 11 日）发布博文，报道称 OpenAI 公司推出 MLE-bench 新基准，旨在评估 AI 智能体在开发机器学习解决方案方面的能力。

该基准包括 75 个 Kaggle 竞赛，旨在衡量自主 AI 系统在机器学习工程中的进展。这些竞赛涵盖了多个领域，包括自然语言处理、计算机视觉和信号处理等等。

AI在线注：Kaggle 是一个非常受欢迎的平台，专注于数据科学和机器学习的在线比赛。Kaggle 提供各种类型的比赛，包括数据预测、图像分类、自然语言处理等，适合不同技能水平的参与者。

在 Kaggle 的进阶系统中，“Novice”（新手）、“Contributor”（贡献者）、“Expert”（专家）、“Master”（大师）和 "Grandmaster"（特级大师）是不同的绩效层级，用于衡量和识别数据科学家在 Kaggle 平台上的技能水平和成就。

首个 AI Kaggle 特级大师诞生，OpenAI 的 o1-preview 夺 7 金封王

许多任务具有现实世界的应用，例如预测 COVID-19 mRNA 疫苗降解或解码古代卷轴等。

首个 AI Kaggle 特级大师诞生，OpenAI 的 o1-preview 夺 7 金封王

MLE-bench 专注于两个关键领域：

选择具有挑战性的任务：这些任务代表了当前机器学习的发展水平。
比较 AI 与人类的表现：通过对比，评估 AI 在特定任务中的能力。

OpenAI 在 MLE-bench 上测试了多个 AI 模型和智能体框架，使用 AIDE 框架的 o1-preview 模型表现最佳，在 16.9% 的比赛中至少获得了一枚铜牌，该结果超越了 Anthropic 的 Claude 3.5 Sonnet。

获得 5 金即可评上 "Grandmaster" 特级大师，而 o1-preview 模型在 MLE-bench 测试中获得了 7 枚金牌。

首个 AI Kaggle 特级大师诞生，OpenAI 的 o1-preview 夺 7 金封王

首个 AI Kaggle 特级大师诞生，OpenAI 的 o1-preview 夺 7 金封王

OpenAI 承认 MLE-bench 也有局限性，并未涵盖 AI 研究与开发的所有方面，主要集中在具有明确问题和简单评估指标的任务上。

MLE-bench 基准现已在 GitHub 上发布，OpenAI 希望通过这一工具，推动 AI 在机器学习领域的进一步发展。

相关标签：

OpenAI MLE bench Kaggle

相关资讯

行业现状令人失望，工作之后我又回到UC伯克利读博了

行业现状令人失望，工作之后我又回到UC伯克利读博了

机器学习领域近来受到大模型的冲击，很多小公司表示难以承担大模型的训练费用。但行业中机器学习工程的发展具体是怎样的？

7/19/2022 2:21:00 PM 机器之心

Google Kaggle 举办 AI 国际象棋锦标赛，模型智力较量即将展开

Google Kaggle 举办 AI 国际象棋锦标赛，模型智力较量即将展开

在人工智能领域，围棋和国际象棋等战略游戏一直是测试模型推理能力的重要舞台。最近，Google DeepMind 与 Kaggle 联合宣布，将于8月5日至7日举办一场 AI 国际象棋锦标赛。这场比赛不仅汇聚了全球性能最强的人工智能模型，还将通过 Kaggle 全新推出的 Game Arena 平台进行直播，吸引了广泛的关注。

8/5/2025 3:01:52 PM AI在线

谷歌约战，DeepSeek、Kimi都要上，首届大模型对抗赛明天开战

谷歌约战，DeepSeek、Kimi都要上，首届大模型对抗赛明天开战

一场激动人心的 AI 国际象棋比赛即将开幕。看够了研究者们天天在论文上刷新基准，是时候拉模型出来遛一遛，性能是不是真如传说中的碾压全场？太平洋时间 8 月 5 日至 7 日，一场为期 3 天的 AI 国际象棋比赛让人无比期待。

8/5/2025 1:31:00 PM 机器之心