AI在线 AI在线

AI在《我的世界》PK盖楼,新旧Claude差距过于明显,网友:审美也是智力的一种

测评大模型Agent能力,从未如此直观。 新旧两版Claude 3.5 Sonnet在《我的世界》里PK盖楼,差距不要太明显,引来大量围观。 图片如果让AI不断迭代,甚至能盖出一片建筑群。

测评大模型Agent能力,从未如此直观。

新旧两版Claude 3.5 Sonnet在《我的世界》里PK盖楼,差距不要太明显,引来大量围观。

图片图片

如果让AI不断迭代,甚至能盖出一片建筑群。

为了避免Claude团队糟糕的命名方式造成混淆,下面跟随adi暂且把“新版Claude 3.5 Sonnet”称为“Sonnet 3.6”。

图片图片

作者adi戏称其为目前“唯一可靠的评测基准”。

Aidan Bench作者Aidan McLau认为评测基准界正需要这个,审美也与智力显著相关。

他甚至愿意提供资金,把这个项目扩展成完整的评测。

图片图片

总之在开源社区帮助下,代码迅速上架GitHub,更多模型测试结果陆续出炉中。

图片图片

比如以慢思考著称的OpenAI o1系列,o1-preivew确实盖的更慢,但结构也更完整。o1-mini则无法胜任这个任务。

图片图片

最终在人类喜好评估(2000+网友投票)中,Sonnet 3.6小赢了一手创意性。

图片

如果不比创意比模仿真实建筑泰姬陵,o1-preview就占很大优势了。

图片图片

照这个趋势下去,这款经典游戏很快就要从《别人的世界》变成《AI的世界》了……

新型MC Bench火了,竞技场模式开发中

大模型在《我的世界》里盖楼,并不是靠接管鼠标键盘,也不需要视觉理解能力。

而是通过文本提供上下文,并生成下一步操作指令,或许可以理解成根据棋盘行列编号下盲棋。

具体到游戏中,AI会控制一个角色,玩家只需要在聊天框中打字说明想要AI建造什么就可以了。

图片图片

网友Mckay Wrigley制作了视频教程,在15分钟内就可以使用开源代码设置好测试环境。(地址在文末获取)

图片图片

使用mineflayer开源库,可以把大模型生成的指令解析成可操作的API调用。

图片图片

mindcraft开源库中则提供了适合任意模型玩《我的世界》的通用提示词,和少量in-context learning示例。

图片图片

目前,MC Bench开源项目组打算进一步完善,做成类似Lmsys大模型竞技场一样的天梯机制,人类用户投票,使用Elo算法记分排名。

图片图片

与此同时,更多其他模型的测试结果也在持续更新中。

更多AI作品

Claude Sonnet非常擅长以塔为主题自由发挥,只需给到足够算力。

图片图片

图片图片

o1-preview则可以发挥慢思考能力,用不同颜色的方块排列出太阳系。

不仅天体的顺序是正确的,连相对体积都有所体现,当然如果太阳按真实比例会让游戏崩溃……

图片图片

小模型难以规划复杂的建筑,但理解和还原简单指令方面,gemini-1.5-flash胜过gpt-4o-mini

图片图片

让开源大模型Llama 3 405B盖一个反应它自己个性的东西,AI选择了火坑上的钻石墙。

图片图片

整体看下来,最有意思的或许还是这个:

让o1-preview自由发挥,随便盖一个酷的东西。

AI选择搭了一个机器人形象,并拼出GPT三个字母。

图片图片

作者透露,接下来会继续测试一众中等大小开源模型。

图片图片

目前初步结果,阿里Qwen 2.5-14B表现不错。

图片图片

视频教程:https://x.com/mckaywrigley/status/1849613686098506064

开源代码:https://github.com/kolbytn/mindcrafthttps://github.com/mc-bench/orchestrator

相关资讯

Anthropic 最强 AI 模型 Claude Sonnet 4 / Opus 4 有望明日发布

科技媒体 bleepingcomputer 今天(5 月 22 日)发布博文,报道称基于 Anthropic 官网配置文件,该公司正秘密研发 Claude Sonnet 4 和 Claude Opus 4 两款全新 AI 模型。
5/22/2025 10:48:24 AM
故渊

Anthropic Introduces Claude Conversational Voice Mode for Mobile Devices, Searches Google Docs, Calendars, etc.

An artificial intelligence startup called Anthropic, located in San Francisco, announced the launch of a major update for its Claude AI chatbot: a brand-new voice conversation mode. This feature is now available in the mobile app on Apple's App Store (for iOS devices) and Google's Play Store (for Android devices).. In addition to the introduction of the voice mode, Anthropic has also expanded web search capabilities for all free users.
5/28/2025 11:01:26 AM
AI在线

用不了ChatGPT?快试试免费又强大的Anthropic Claude

大家好,这里是和你们一起探索 AI 的花生~ 前段时间 OpenAI 不稳定导致有些小伙伴没有办法继续使用 ChatGPT 了,不过没有关系,最近又新出现了一个 AI 聊天机器人 Claude,功能与 ChatGPT 不相上下,还比 ChatGPT 更容易获取和使用,目前可以免费使用,一起来看看吧~ 往期回顾:一、Claude 简介 Anthropic 官方: Claude 是最近新开放的一款 AI 聊天机器人,是世界上最大的语言模型之一,比之前的一些模型如 GPT-3 要强大得多,因此 Claude 被认为是
4/23/2023 7:51:39 AM
夏花生

一夜之间,大模型像人一样操控电脑了!Claude 3.5重磅升级,抢先OpenAI

几个小时前,Claude 3.5 模型迎来了一波大更新。Anthropic 推出了升级版的 Claude 3.5 Sonnet 以及一款新模型 Claude 3.5 Haiku。其中,升级版 Claude 3.5 Sonnet 的各项能力全面胜过之前版本,其中代码能力提升显著。
10/23/2024 9:26:00 AM
机器之心

Claude 3.7 Sonnet深夜上线,AI编程的天又被捅破了

AI 这个行业真的卷生卷死,凌晨 2 点半,刚想早睡一点点,9 点起来蹲 DeepSeek 的开源。 结果,Claude 直接玩偷袭了。 Claude 3.7 Sonnet 来了,也是 Claude 家族,第一个能推理的模型。
2/26/2025 12:54:18 AM
数字生命卡兹克

Anthropic 的 Claude Code 工具存漏洞,导致部分系统“变砖”

Anthropic 最新推出的编码工具 Claude Code 遭遇了一些技术问题。据 GitHub 上的用户报告,该工具的自动更新功能存在漏洞,导致部分工作站出现不稳定甚至无法正常运行的情况。
3/7/2025 3:39:58 PM
远洋

Anthropic 推出 Claude Max 订阅计划,月费最高 200 美元

Anthropic宣布推出Claude Max订阅计划,提供两种高价选项,挑战OpenAI的ChatGPT Pro。新计划速率限制更高,用户可优先体验最新AI模型。公司还探索教育领域项目,应对AI开发高成本。#AI订阅##ClaudeMax#
4/10/2025 7:44:10 AM
远洋

Anthropic在移动端推Claude对话语音模式,可搜索Google 文档、日历等

位于旧金山的人工智能初创公司Anthropic宣布推出 Claude 人工智能聊天机器人新的重大更新:全新的语音对话模式。 该功能已在苹果 App Store(iOS 设备)和谷歌 Play Store(Android 设备)的移动应用中上线。 除了语音模式的推出,Anthropic还为所有免费用户扩展了网络搜索功能。
5/28/2025 10:01:00 AM
AI在线

Gartner:超 40% 的 AI Agent 智能体项目活不过两年

Gartner最新报告显示,超过40%的AI Agent项目因商业利益不佳或误用炒作,预计将在2027年底前消失。调查发现,仅19%的企业对AI智能体进行了大量投资,而42%持保守态度。#AI技术##商业投资#
6/29/2025 11:36:29 AM
漾仔

刚刚!Claude Code对外公开了官方内部最佳实践!核心贡献者:CC是一个纯粹Agent工具,揭秘md文件、上下文进阶技巧

编辑 | 云昭出品 | 51CTO技术栈(微信号:blog51cto)Claude Code 终于有了官方大佬出来分享内部的最佳实战哲学了。 两天前,Anthropic 官方 YouTube 账号放出了一个AI应用技术团队的老大在旧金山的 Code w/ Claude 会议上的分享内容。 这个分享全程25分钟,可以说句句干货,讲述了 Claude Code 的诞生和最佳实践原则,用分享者 Cal Rueb 的话说就是揭开“引擎底盖”,看看底层就是是如何运作的。
8/4/2025 2:45:00 AM
云昭

突破Claude-4编程上限!自进化Agent框架拿下新SOTA,底模越好性能越高,已开源

突破多步推理瓶颈,让Claude-3.7-Sonnet解题成功率暴增20.6%。 在SWE-Bench Verified上刷新开源框架SOTA! 中科院、清华大学、阶跃星辰等提出SE-Agent,一个创新的自进化(Self-Evolution)框架。
8/19/2025 11:26:46 AM

突破Claude-4编程上限!自进化Agent框架拿下新SOTA,已开源

突破多步推理瓶颈,让Claude-3.7-Sonnet解题成功率暴增20.6%。 在SWE-Bench Verified上刷新开源框架SOTA! 中科院、清华大学、阶跃星辰等提出SE-Agent,一个创新的自进化(Self-Evolution)框架。
8/19/2025 5:38:07 PM
明敏

8%价格,2倍速度!国产MiniMax M2暴打Claude Sonnet 4.5?我们实测后发现堪称性价比之王!

编辑 | 听雨出品 | 51CTO技术栈(微信号:blog51cto)10月27日,MiniMax正式开源并上线了 MiniMax M2。 官方口号喊得非常响亮:“专为 Agent 和代码而生,仅 Claude Sonnet 8% 价格,2倍速度,限时免费! ”这就引发了很多网友纷纷前去体验,再加上官方延长了限时免费的时间,截至11月7日前都可以免费体验Agent平台和调用API,政策十分诱人。
10/31/2025 10:24:42 AM
听雨

全网爆火的Manus到底能做什么?超多演示案例来了!

关注科技 AI 圈的同学,在 3 月 6 号这天都被 Manus 刷屏了,那么他是个啥呢? 和 DeepSeek 和 Open AI 有什么区别呢? Manus 官网上是这样说的“Manus 是一个通用的人工智能代理,它连接思想和行动:它不仅会思考,还会提供结果。
3/11/2025 12:54:46 AM
益达

速通BOSS需求!零基础AI Agent高效工作流设计指南

此次会连载一套 AI-Agent 构建的系列,主要分为三部分,首先是速通 AI-Agent 构建的工作流基础,然后是通过 ComfyUI 作为案例来复盘如何快速上手工作流平台,最后则是借助 Agent 平台构建一个 AI Agent 案例,本系列意图主要是帮助大家贯通工作流的搭建形式,并尝试思考为自己的工作搭建一些可用的 AI 助手,或是提供构建的方法指引。 无论你是产品经理还是设计师,你会发现商业场景的 AIGC,几乎都没有办法通过一段需求描述或是简单的 Agent 对话就搞定的,你需要更专业更复杂的 AIGC 过程,那么如何理解复杂? 实现专业?
3/18/2025 8:22:14 AM
泡泡bing

唯有惊叹!一手体验首款通用Agent产品Manus

一个新团队突然发了一个首款通用型的项目:Manus。 演示在此,我人直接看麻了。 看完我的第一感觉,人类又要一败涂地了。
3/7/2025 7:43:25 AM
数字生命卡兹克

速通BOSS需求!零基础AI Agent高效工作流设计指南(二)

前言. 此次会连载一套 AI Agent 构建的系列,主要分为三部分,上篇是速通 AI Agent 构建的工作流基础,本篇则是通过 ComfyUI 作为案例来复盘如何快速上手工作流平台,给大家提供一些思路与窍门,下篇则是借助 Agent 平台构建一个 AI Agent 案例,本系列意图主要是帮助大家贯通工作流的搭建形式,并尝试为自己搭建一些可用的 AI 助手,或是提供构建的方法指引。 上期回顾:.
5/13/2025 2:16:53 AM
泡泡bing

这篇 AI Agent 漫游指南,带你建立全面的科技史观

作者 | kong以OpenAI o1与DeepSeek R1为代表的"类Agent"模型、OpenAI DeepResearch为代表的“真Agent”模型,正在重构AI Agent的技术范式。 Agentic Workflow的王座还没坐热,强化学习驱动的端到端Agent模型训练已呼啸而来。 未来趋势已指明:模型即产品,工程化Agent的命运将如何?
5/27/2025 10:05:00 AM
腾讯技术工程
  • 1