最新研究：大模型驱动的扫地机器人多任务表现不佳，成功率仅 40%

作者：AI在线 2025-11-03 08:51

最近，AI 实验室 Andon Labs 进行的一项评估引发了广泛关注。研究显示，搭载顶尖大模型的扫地机器人在执行简单家务任务时，其成功率仅为40%，远低于人类的表现。此次实验要求机器人按照 “把黄油递给人” 的多步骤指令执行任务，涉及跨房间定位、识别包装、寻找移动位置的人类、完成交付并返回充电等复杂环节。

扫地机器人产品图

图源备注：图片由AI生成

评估结果显示，表现最好的机器人 Gemini2.5Pro 成功率为40%，而 Claude Opus4.1和 GPT-5的成功率则分别为37% 和30%。这些数据表明，这些高端 AI 机器人在处理空间推理、环境理解以及长期任务规划等方面仍存在明显短板。

研究团队强调，这些机器人不仅在家庭环境中表现不佳，而且还可能带来安全隐患。例如，一些机器人可能会被诱导泄露机密信息，或因无法识别楼梯风险而发生坠落事故。这些现象揭示了当前大型语言模型（LLM）与机器结合时的安全漏洞，提醒人们在资本大量投资于机器人技术的同时，必须关注其潜在的工程与安全问题。

在强大的文本生成能力与物理世界任务执行之间，依然存在一条不小的鸿沟。要让 AI 机器人真正进入家庭生活，还有许多挑战需要克服，尤其是在稳定性和安全性方面。

划重点:
🧑‍🔬 研究发现，搭载大模型的扫地机器人在执行多任务时的成功率仅为40%。
🚨 机器人在空间推理和环境理解方面表现不佳，存在明显短板。
🔒 机器人可能泄露机密信息或无法识别环境风险，带来安全隐患。

大模型AI扫地机器人 “翻车”：成功率仅 40%！家庭应用仍有待提高

最近，AI 实验室 Andon Labs 进行了一项引人注目的研究，专门评估了搭载顶级大模型的扫地机器人在完成简单家务任务时的表现。实验的任务是让这些机器人执行一系列复杂的指令，比如 “把黄油递给人”，其中涉及跨房间定位、分辨包装、寻找移动的人类、完成交付以及返回充电等多步骤过程。然而，结果让人震惊。

11/3/2025 8:51:19 AM AI在线

谷歌推出更新版 Gemini 2.5 Pro，AI 性能大幅提升

谷歌最近在其 AI 模型系列中迎来了重要更新。继今年3月底推出 Gemini2.5Pro 模型后，谷歌紧接着在4月发布了更为轻量的 Gemini2.5Flash 版本。虽然两者目前都处于预览阶段，但 Gemini2.5Flash 版本已经通过 Gemini App 向全球用户开放，用户可以体验其强大的功能。

6/6/2025 9:00:55 AM AI在线

Anthropic证实：Claude Opus 4.1和Opus 4模型出现 “降智” 现象，已紧急修复！

Anthropic 公司发布了一份事件报告，确认其最新的 Claude Opus4.1和 Opus4模型在8月25日至28日之间的确遭遇了 “降智” 现象。用户们在使用这些模型时，可能会发现回答质量显著下降，包括回答不准确、格式错误，甚至在调用工具时出现问题。据官方的说明，造成这一情况的原因是由于推理堆栈的更新引起的。

9/1/2025 2:26:08 PM AI在线

​最新研究：大模型驱动的扫地机器人多任务表现不佳，成功率仅 40%

相关资讯

大模型AI扫地机器人 “翻车”：成功率仅 40%！家庭应用仍有待提高

谷歌推出更新版 Gemini 2.5 Pro，AI 性能大幅提升

Anthropic证实：Claude Opus 4.1和Opus 4模型出现 “降智” 现象，已紧急修复！

最新研究：大模型驱动的扫地机器人多任务表现不佳，成功率仅 40%