大模型AI扫地机器人 “翻车”：成功率仅 40%！家庭应用仍有待提高

作者：AI在线 2025-11-03 08:51

最近，AI 实验室 Andon Labs 进行了一项引人注目的研究，专门评估了搭载顶级大模型的扫地机器人在完成简单家务任务时的表现。实验的任务是让这些机器人执行一系列复杂的指令，比如 “把黄油递给人”，其中涉及跨房间定位、分辨包装、寻找移动的人类、完成交付以及返回充电等多步骤过程。然而，结果让人震惊。

最近，AI 实验室 Andon Labs 进行了一项引人注目的研究，专门评估了搭载顶级大模型的扫地机器人在完成简单家务任务时的表现。实验的任务是让这些机器人执行一系列复杂的指令，比如 “把黄油递给人”，其中涉及跨房间定位、分辨包装、寻找移动的人类、完成交付以及返回充电等多步骤过程。

然而，结果让人震惊。这些先进的机器人在执行任务时的成功率远远低于人类，具体数据显示，Gemini2.5Pro 的成功率仅为40%，Claude Opus4.1为37%，而 GPT-5更是低至30%。这些数字表明，尽管它们具备强大的文本生成能力，但在实际的空间推理、环境理解和长期任务规划等领域仍显得力不从心。

扫地机器人产品图

图源备注：图片由AI生成，图片授权服务商Midjourney

研究团队指出，这种低成功率不仅在于技术的不足，还存在潜在的安全隐患。例如，一些机器人可能在操作过程中泄露机密文件，或者无法正确识别楼梯风险，从而导致意外跌落。这一现象进一步揭示了当前大型语言模型（LLM）与机器结合所面临的安全漏洞。

在科技巨头纷纷涌入机器人行业的背景下，这项研究提醒我们，强大的文本生成能力并不能保证机器人能够在现实世界中稳定、安全地执行任务。要让 AI 机器人真正进入家庭生活，我们还有很多工程和安全问题需要解决。

尽管这些智能设备在家庭生活中承载着巨大的期望，但从目前的研究结果来看，我们需要更加谨慎地对待它们的应用。随着技术的不断进步，希望未来的扫地机器人能够克服这些障碍，为我们的日常生活带来真正的便利。

最新研究：大模型驱动的扫地机器人多任务表现不佳，成功率仅 40%

最近，AI 实验室 Andon Labs 进行的一项评估引发了广泛关注。研究显示，搭载顶尖大模型的扫地机器人在执行简单家务任务时，其成功率仅为40%，远低于人类的表现。此次实验要求机器人按照 “把黄油递给人” 的多步骤指令执行任务，涉及跨房间定位、识别包装、寻找移动位置的人类、完成交付并返回充电等复杂环节。

11/3/2025 8:51:16 AM AI在线

谷歌推出更新版 Gemini 2.5 Pro，AI 性能大幅提升

谷歌最近在其 AI 模型系列中迎来了重要更新。继今年3月底推出 Gemini2.5Pro 模型后，谷歌紧接着在4月发布了更为轻量的 Gemini2.5Flash 版本。虽然两者目前都处于预览阶段，但 Gemini2.5Flash 版本已经通过 Gemini App 向全球用户开放，用户可以体验其强大的功能。

6/6/2025 9:00:55 AM AI在线

谷歌发布Gemini2.5Pro预览版:编码性能击败DeepSeek R1和Grok 3 Beta

谷歌近日推出了其最新的 Gemini2.5Pro 预览版，这款被誉为 “最智能” 模型的产品，首次在3月份宣布，随后在5月份进行了升级。此次发布的预览版旨在为企业提供一个测试新应用程序或替换早期版本的机会。根据谷歌的官方博客，这一新版本在回应速度和创意上表现更佳，同时在编码和推理能力上超越了其他模型。

6/6/2025 10:01:06 AM AI在线

大模型AI扫地机器人 “翻车”：成功率仅 40%！家庭应用仍有待提高

相关资讯

​最新研究：大模型驱动的扫地机器人多任务表现不佳，成功率仅 40%

谷歌推出更新版 Gemini 2.5 Pro，AI 性能大幅提升

​谷歌发布Gemini2.5Pro预览版:编码性能击败DeepSeek R1和Grok 3 Beta

最新研究：大模型驱动的扫地机器人多任务表现不佳，成功率仅 40%

谷歌发布Gemini2.5Pro预览版:编码性能击败DeepSeek R1和Grok 3 Beta