AI在《我的世界》PK盖楼，新旧Claude差距过于明显，网友：审美也是智力的一种

作者： 2024-11-15 01:22

测评大模型Agent能力，从未如此直观。新旧两版Claude 3.5 Sonnet在《我的世界》里PK盖楼，差距不要太明显，引来大量围观。图片如果让AI不断迭代，甚至能盖出一片建筑群。

测评大模型Agent能力，从未如此直观。

新旧两版Claude 3.5 Sonnet在《我的世界》里PK盖楼，差距不要太明显，引来大量围观。

图片

如果让AI不断迭代，甚至能盖出一片建筑群。

为了避免Claude团队糟糕的命名方式造成混淆，下面跟随adi暂且把“新版Claude 3.5 Sonnet”称为“Sonnet 3.6”。

图片

作者adi戏称其为目前“唯一可靠的评测基准”。

Aidan Bench作者Aidan McLau认为评测基准界正需要这个，审美也与智力显著相关。

他甚至愿意提供资金，把这个项目扩展成完整的评测。

图片

总之在开源社区帮助下，代码迅速上架GitHub，更多模型测试结果陆续出炉中。

图片

比如以慢思考著称的OpenAI o1系列，o1-preivew确实盖的更慢，但结构也更完整。o1-mini则无法胜任这个任务。

图片

最终在人类喜好评估（2000+网友投票）中，Sonnet 3.6小赢了一手创意性。

如果不比创意比模仿真实建筑泰姬陵，o1-preview就占很大优势了。

图片

照这个趋势下去，这款经典游戏很快就要从《别人的世界》变成《AI的世界》了……

新型MC Bench火了，竞技场模式开发中

大模型在《我的世界》里盖楼，并不是靠接管鼠标键盘，也不需要视觉理解能力。

而是通过文本提供上下文，并生成下一步操作指令，或许可以理解成根据棋盘行列编号下盲棋。

具体到游戏中，AI会控制一个角色，玩家只需要在聊天框中打字说明想要AI建造什么就可以了。

图片

网友Mckay Wrigley制作了视频教程，在15分钟内就可以使用开源代码设置好测试环境。（地址在文末获取）

图片

使用mineflayer开源库，可以把大模型生成的指令解析成可操作的API调用。

图片

mindcraft开源库中则提供了适合任意模型玩《我的世界》的通用提示词，和少量in-context learning示例。

图片

目前，MC Bench开源项目组打算进一步完善，做成类似Lmsys大模型竞技场一样的天梯机制，人类用户投票，使用Elo算法记分排名。

图片

与此同时，更多其他模型的测试结果也在持续更新中。

更多AI作品

Claude Sonnet非常擅长以塔为主题自由发挥，只需给到足够算力。

图片

图片

o1-preview则可以发挥慢思考能力，用不同颜色的方块排列出太阳系。

不仅天体的顺序是正确的，连相对体积都有所体现，当然如果太阳按真实比例会让游戏崩溃……

图片

小模型难以规划复杂的建筑，但理解和还原简单指令方面，gemini-1.5-flash胜过gpt-4o-mini。

图片

让开源大模型Llama 3 405B盖一个反应它自己个性的东西，AI选择了火坑上的钻石墙。

图片

整体看下来，最有意思的或许还是这个：

让o1-preview自由发挥，随便盖一个酷的东西。

AI选择搭了一个机器人形象，并拼出GPT三个字母。

图片

作者透露，接下来会继续测试一众中等大小开源模型。

图片

目前初步结果，阿里Qwen 2.5-14B表现不错。

图片

视频教程：https://x.com/mckaywrigley/status/1849613686098506064

开源代码：https://github.com/kolbytn/mindcrafthttps://github.com/mc-bench/orchestrator

相关标签：

Agent Claude

相关资讯

Anthropic 最强 AI 模型 Claude Sonnet 4 / Opus 4 有望明日发布

Anthropic 最强 AI 模型 Claude Sonnet 4 / Opus 4 有望明日发布

科技媒体 bleepingcomputer 今天（5 月 22 日）发布博文，报道称基于 Anthropic 官网配置文件，该公司正秘密研发 Claude Sonnet 4 和 Claude Opus 4 两款全新 AI 模型。

5/22/2025 10:48:24 AM 故渊

Anthropic Introduces Claude Conversational Voice Mode for Mobile Devices, Searches Google Docs, Calendars, etc.

Anthropic Introduces Claude Conversational Voice Mode for Mobile Devices, Searches Google Docs, Calendars, etc.

An artificial intelligence startup called Anthropic, located in San Francisco, announced the launch of a major update for its Claude AI chatbot: a brand-new voice conversation mode. This feature is now available in the mobile app on Apple's App Store (for iOS devices) and Google's Play Store (for Android devices).. In addition to the introduction of the voice mode, Anthropic has also expanded web search capabilities for all free users.

5/28/2025 11:01:26 AM AI在线

Gartner：超 40% 的 AI Agent 智能体项目活不过两年

Gartner：超 40% 的 AI Agent 智能体项目活不过两年

Gartner最新报告显示，超过40%的AI Agent项目因商业利益不佳或误用炒作，预计将在2027年底前消失。调查发现，仅19%的企业对AI智能体进行了大量投资，而42%持保守态度。#AI技术##商业投资#

6/29/2025 11:36:29 AM 漾仔