AI在线 AI在线

挑战AI极限!首届K奖编程大赛揭晓,顶尖模型成绩惨淡!

在一个新的人工智能编程挑战赛中,结果引发了广泛关注。 由 Laude Institute 主办的 K 奖大赛于最近公布了首位获奖者,令人惊讶的是,获得5万美元奖金的巴西程序员爱德华多・霍查・德・安德拉德(Eduardo Rocha de Andrade)在比赛中仅回答正确了7.5% 的问题。 这一成绩无疑为人工智能领域的现状敲响了警钟。

在一个新的人工智能编程挑战赛中,结果引发了广泛关注。由 Laude Institute 主办的 K 奖大赛于最近公布了首位获奖者,令人惊讶的是,获得5万美元奖金的巴西程序员爱德华多・霍查・德・安德拉德(Eduardo Rocha de Andrade)在比赛中仅回答正确了7.5% 的问题。这一成绩无疑为人工智能领域的现状敲响了警钟。

K 奖是由 Databricks 和 Perplexity 的联合创始人安迪・孔温斯基(Andy Konwinski)发起的,旨在推动 AI 模型在真实编程问题上的表现。孔温斯基表示:“我们很高兴能够建立一个真正具有挑战性的基准。” 与目前普遍存在的测试系统相比,K 奖的设计更加严格,通过采用 “无污染” 的方式,确保测试模型的能力不受训练集的影响。

机器人比赛 答题 数学

图源备注:图片由AI生成,图片授权服务商Midjourney

与其他基准测试如 SWE-Bench 不同,K 奖不允许模型在提交前接触到特定的问题,而是使用在截止日期之后从 GitHub 提取的新问题。虽然许多 AI 编程工具已经涌现,但这项新挑战却显示出目前模型的局限性。K 奖的顶尖成绩与 SWE-Bench 中75% 的顶尖得分形成了鲜明对比,这让人们开始怀疑是否存在基准测试的污染问题。

孔温斯基对未来充满信心,并承诺如果有开源模型能够在测试中得分超过90%,他将提供100万美元的奖励。他希望这项挑战能成为整个行业的警钟,让大家认识到目前的 AI 技术仍有很大的提升空间。他补充道:“如果我们连10% 的成绩都达不到,那现实就很残酷了。”

这次比赛引发了行业内对于 AI 评估标准的热烈讨论,许多研究者认为像 K 奖这样的项目对于解决 AI 的评估问题至关重要。普林斯顿大学的研究者萨亚什・卡普尔(Sayash Kapoor)表示:“我们需要新的测试来评估现有的基准,如果没有这样的实验,我们无法判断问题的根源。”

K 奖不仅为 AI 模型设立了新的挑战标准,也为整个行业提供了一个反思的机会,让人们重新审视当前的人工智能技术和其应用的可行性。

相关资讯

OpenAI 推出 SWE-bench Verified 基准,更准确评估 AI 模型代码生成表现

感谢OpenAI 公司于 8 月 13 日发布新闻稿,宣布推出 SWE-bench Verified 代码生成评估基准,解决了此前的局限性问题,能够更准确地评估人工智能模型在软件工程任务中的表现。SWE-benchAI在线注:SWE-Bench 是一个用于评估 LLM 解决 GitHub 上真实软件问题能力的基准测试数据集。它收集了来自 12 个流行的 Python 仓库的 2294 个 Issue-Pull Request 对。在测试时,LLM 会拿到一个代码库和 issue 描述,然后生成一个补丁来解决 iss
8/15/2024 2:34:33 PM
故渊

OpenAI「草莓」模型再次跳票,凌晨发布的SWE-bench Verified是个啥?

有人说,「我们期待的是草莓,但他们发布的是羽衣甘蓝。」我们来看看这个「羽衣甘蓝」是做什么用的。一直以来,大模型的编程能力都备受关注,超强 AI 程序员 Devin 的问世更是将「AI 能否替代程序员」这一话题推上了风口浪尖。最近,Devin 也迎来了新对手 —— 初创公司 Cosine 推出的自主 AI 程序员 Genie。该公司表示,Genie 的表现轻松超越了 Devin,在第三方基准测试 SWE-bench 上的得分为 30%,而 Devin 的得分仅为 13.8%。这个 SWE-Bench 是一个用于评估
8/14/2024 2:38:00 PM
机器之心

「世界开源新王」Reflection 70B 跌落神坛?重测跑分暴跌实锤造假

「世界开源新王」Reflection 70B,才坐上王座没几天就被打假,跌落神坛了!甚至有人质疑,它莫不是套壳的 Sonnet 3.5?发布者 Matt Shumer 和 Sahil Chaudhary 经过一番挣扎,已经光速「滑跪」,po 出的复盘长文也是亮点满满。「开源新王」Reflection 70B,才发布一个月就跌落神坛了?9 月 5 日,Hyperwrite AI 联创兼 CEO Matt Shumer 在 X 上扔出一则爆炸性消息 ——用 Meta 的开源 Llama 3.1-70B,团队微调出了 R
10/7/2024 4:06:50 PM
清源
  • 1