挑战AI极限！首届K奖编程大赛揭晓，顶尖模型成绩惨淡！

作者：AI在线 2025-07-24 11:22

在一个新的人工智能编程挑战赛中，结果引发了广泛关注。由 Laude Institute 主办的 K 奖大赛于最近公布了首位获奖者，令人惊讶的是，获得5万美元奖金的巴西程序员爱德华多・霍查・德・安德拉德（Eduardo Rocha de Andrade）在比赛中仅回答正确了7.5% 的问题。这一成绩无疑为人工智能领域的现状敲响了警钟。

K 奖是由 Databricks 和 Perplexity 的联合创始人安迪・孔温斯基（Andy Konwinski）发起的，旨在推动 AI 模型在真实编程问题上的表现。孔温斯基表示:“我们很高兴能够建立一个真正具有挑战性的基准。” 与目前普遍存在的测试系统相比，K 奖的设计更加严格，通过采用 “无污染” 的方式，确保测试模型的能力不受训练集的影响。

机器人比赛答题数学

图源备注：图片由AI生成，图片授权服务商Midjourney

与其他基准测试如 SWE-Bench 不同，K 奖不允许模型在提交前接触到特定的问题，而是使用在截止日期之后从 GitHub 提取的新问题。虽然许多 AI 编程工具已经涌现，但这项新挑战却显示出目前模型的局限性。K 奖的顶尖成绩与 SWE-Bench 中75% 的顶尖得分形成了鲜明对比，这让人们开始怀疑是否存在基准测试的污染问题。

孔温斯基对未来充满信心，并承诺如果有开源模型能够在测试中得分超过90%，他将提供100万美元的奖励。他希望这项挑战能成为整个行业的警钟，让大家认识到目前的 AI 技术仍有很大的提升空间。他补充道:“如果我们连10% 的成绩都达不到，那现实就很残酷了。”

这次比赛引发了行业内对于 AI 评估标准的热烈讨论，许多研究者认为像 K 奖这样的项目对于解决 AI 的评估问题至关重要。普林斯顿大学的研究者萨亚什・卡普尔（Sayash Kapoor）表示:“我们需要新的测试来评估现有的基准，如果没有这样的实验，我们无法判断问题的根源。”

K 奖不仅为 AI 模型设立了新的挑战标准，也为整个行业提供了一个反思的机会，让人们重新审视当前的人工智能技术和其应用的可行性。

OpenAI 推出 SWE-bench Verified 基准，更准确评估 AI 模型代码生成表现

感谢OpenAI 公司于 8 月 13 日发布新闻稿，宣布推出 SWE-bench Verified 代码生成评估基准，解决了此前的局限性问题，能够更准确地评估人工智能模型在软件工程任务中的表现。SWE-benchAI在线注：SWE-Bench 是一个用于评估 LLM 解决 GitHub 上真实软件问题能力的基准测试数据集。它收集了来自 12 个流行的 Python 仓库的 2294 个 Issue-Pull Request 对。在测试时，LLM 会拿到一个代码库和 issue 描述，然后生成一个补丁来解决 iss

8/15/2024 2:34:33 PM

故渊

OpenAI「草莓」模型再次跳票，凌晨发布的SWE-bench Verified是个啥？

有人说，「我们期待的是草莓，但他们发布的是羽衣甘蓝。」我们来看看这个「羽衣甘蓝」是做什么用的。一直以来，大模型的编程能力都备受关注，超强 AI 程序员 Devin 的问世更是将「AI 能否替代程序员」这一话题推上了风口浪尖。最近，Devin 也迎来了新对手 —— 初创公司 Cosine 推出的自主 AI 程序员 Genie。该公司表示，Genie 的表现轻松超越了 Devin，在第三方基准测试 SWE-bench 上的得分为 30%，而 Devin 的得分仅为 13.8%。这个 SWE-Bench 是一个用于评估

8/14/2024 2:38:00 PM

机器之心

「世界开源新王」Reflection 70B 跌落神坛？重测跑分暴跌实锤造假

「世界开源新王」Reflection 70B，才坐上王座没几天就被打假，跌落神坛了！甚至有人质疑，它莫不是套壳的 Sonnet 3.5？发布者 Matt Shumer 和 Sahil Chaudhary 经过一番挣扎，已经光速「滑跪」，po 出的复盘长文也是亮点满满。「开源新王」Reflection 70B，才发布一个月就跌落神坛了？9 月 5 日，Hyperwrite AI 联创兼 CEO Matt Shumer 在 X 上扔出一则爆炸性消息 ——用 Meta 的开源 Llama 3.1-70B，团队微调出了 R

10/7/2024 4:06:50 PM

清源

挑战AI极限！首届K奖编程大赛揭晓，顶尖模型成绩惨淡！

相关资讯

OpenAI 推出 SWE-bench Verified 基准，更准确评估 AI 模型代码生成表现

OpenAI「草莓」模型再次跳票，凌晨发布的SWE-bench Verified是个啥？

「世界开源新王」Reflection 70B 跌落神坛？重测跑分暴跌实锤造假