AI在线 AI在线

原有的模型评测基准OUT了!12岁高中生建立了一个网站, 让AI模型发起 Minecraft 挑战

编辑 | 言征出品 | 51CTO技术栈(微信号:blog51cto)由于传统的AI 基准测试技术已被证明不够充分,AI 开发者开始采用更具创造性的方式来评估生成式 AI 模型的能力。 对于一组开发者来说,这就是微软旗下的沙盒建造游戏 Minecraft。 Minecraft Benchmark (或 MC-Bench)网站是合作开发的,目的是让人工智能模型在面对面的挑战中相互竞争,用 Minecraft 创作来回答提示。

编辑 | 言征

出品 | 51CTO技术栈(微信号:blog51cto)

由于传统的AI 基准测试技术已被证明不够充分,AI 开发者开始采用更具创造性的方式来评估生成式 AI 模型的能力。对于一组开发者来说,这就是微软旗下的沙盒建造游戏 Minecraft。

Minecraft Benchmark (或 MC-Bench)网站是合作开发的,目的是让人工智能模型在面对面的挑战中相互竞争,用 Minecraft 创作来回答提示。用户可以投票选出哪个模型做得更好,只有在投票后,他们才能看到每个 Minecraft 构建都是由哪个人工智能完成的。

Minecraft 基准测试Minecraft 基准测试

对于创办 MC-Bench 的 12 年级学生 Adi Singh 来说,Minecraft 的价值不在于游戏本身,而在于人们对它的熟悉程度——毕竟,它是有史以来最畅销的电子游戏。即使对于没有玩过这款游戏的人来说,仍然可以评估哪种块状菠萝表现更好。

“Minecraft 让人们更容易看到(人工智能开发的)进展,”辛格告诉 TechCrunch。“人们已经习惯了 Minecraft,习惯了它的外观和氛围。”

MC-Bench 目前列出了 8 名志愿者。根据 MC-Bench 网站,Anthropic、Google、OpenAI 和阿里巴巴已为该项目使用其产品运行基准测试提供补贴,但这些公司与其他公司并无关联。

辛格说:“目前,我们只是在进行简单的构建,以反思我们与 GPT-3 时代相比取得了多大的进步,但我们可以预见到自己会扩展到这些长期计划和以目标为导向的任务。”“游戏可能只是一种测试代理推理的媒介,它比现实生活中更安全,而且在测试方面更易于控制,在我看来,这更理想。”

其他游戏,如《精灵宝可梦红》、  《街头霸王》和《你画我猜》也被用作人工智能的实验基准,部分原因是人工智能的基准测试艺术非常棘手。

研究人员经常在标准化评估中测试人工智能模型,但其中许多测试都让人工智能拥有主场优势。由于训练方式的原因,模型天生擅长解决某些特定类型的问题,尤其是需要死记硬背或基本推断的问题。

简而言之,很难理解 OpenAI 的 GPT-4 可以在 LSAT 中取得 88% 的成绩,但却无法辨别“strawberry”这个词中有多少个“R”。Anthropic的Claude 3.7 Sonnet在标准化软件工程基准测试中的准确率为 62.3%,但它在玩 Pokémon 方面的表现却比大多数五岁儿童还要差。

图片来源:Minecraft Benchmark图片来源:Minecraft Benchmark

MC-Bench 从技术上来说是一个编程基准,因为模型被要求编写代码来创建提示的构建,例如“雪人弗罗斯蒂”或“原始沙滩上迷人的热带海滩小屋”。

但对于大多数 MC-Bench 用户来说,评估雪人是否看起来更好比深入研究代码更容易,这使得该项目具有更广泛的吸引力 - 并因此有可能收集更多关于哪些模型持续得分更高的数据。

当然,这些分数是否对 AI 的实用性有重大影响还有待商榷。不过,Singh 坚称,这是一个强烈的信号。

“目前的排行榜与我自己使用这些模型的经验非常接近,这与许多纯文本基准测试不同,”Singh 说。“也许 [MC-Bench] 可以帮助公司了解他们是否朝着正确的方向前进。”

基准链接:https://mcbench.ai/

相关资讯

李飞飞团队提出世界模型基准:“世界生成”能力迎来统一评测,3D/4D/视频模型同台PK

世界模型领域最新进展,要比拼“世界生成”了。 李飞飞吴佳俊团队提出了全面评测基准WorldScore,涵盖了三大类评估指标,动态静态都有涉及,其数据集中包含了3000个测试样例。 并且,WorldScore将3D场景生成、4D场景生成和视频生成三类模型的评估,统一到了一起。
4/10/2025 9:10:00 AM
量子位

SOTA大模型遇上加密数据评测:Qwen3未破10%,o1也栽了丨上海AI Lab等联合研究

大语言模型遇上加密数据,即使是最新Qwen3也直冒冷汗! 尽管当前的推理模型在各类基准测试中展现出卓越的性能,但在密码学这一对逻辑严密性和细节精确度要求近乎苛刻的专业领域,模型的推理能力仍有待深入探索。 密码学不仅需要模型具备高阶数学运算能力和严密的逻辑推理链条,更要求其能够精准识别复杂加密模式中的潜在规律;成功解密需要模型具有极强的综合推理能力。
5/30/2025 9:03:00 AM

谷歌 AI 推出 CardBench 评估框架:含 20 个真实数据库,更全面评估基数估计模型

谷歌 AI 研究人员最新推出了 CardBench 基准,主要为学习型基数估计(cardinality estimation)满足系统评估框架需求。CardBench 基准是个综合评估框架,包含 20 个不同真实数据库中的数千次查询,大大超过了以往的任何基准。项目背景基数估计(cardinality estimation,简称 CE)是优化关系数据库查询性能的关键,涉及预测数据库查询将返回的中间结果数量,直接影响查询优化器对执行计划的选择。对于选择高效的连接顺序、决定是否使用索引以及选择最佳连接方法来说,准确的卡入
9/3/2024 2:35:55 PM
故渊
  • 1