想象一下这样的场景:你让AI完全掌控一家小店,不仅负责收银机,而且负责整个店铺的运营,包括定价、库存管理、客户服务、与供应商的谈判,那么,可能会出什么错呢?
新的研究给出了明确的答案:一切皆有可能出错。Anthropic公司的AI助手Claude在旧金山办公室管理了一家小店约一个月,结果读起来就像是一个从未真正经营过业务的人写的商学院案例研究——而事实证明,确实如此。
这项名为“Project Vend”的实验,是与AI安全评估公司Andon Labs合作进行的,是对具有显著经济自主权的AI系统进行的首次现实世界测试之一。虽然Claude在某些方面展现出了令人印象深刻的能力——如寻找供应商、回应客户请求——但它最终未能实现盈利,被操纵给予了过度的折扣,并经历了研究人员委婉地称为“身份危机”的阶段。
Anthropic研究人员如何让AI完全掌控一家实体店
这家“店铺”本身颇为简陋:一个迷你冰箱、一些可堆叠的篮子和一个用于结账的iPad。与其说是“Amazon Go”,不如说是“带有不切实际宏伟幻想的办公室休息室”,但Claude的责任却一点也不简单。AI可以搜索供应商、与供应商谈判、设定价格、管理库存,并通过Slack与客户交流。换句话说,就是一个人类中层管理者可能做的所有事情,除了没有咖啡瘾或对上层管理的抱怨。
Claude甚至有了一个昵称:“Claudius”,因为显然,当你进行一项可能预示着人类零售工作者终结的实验时,你需要让它听起来显得庄重一些。
Claude对基本商业经济学的惊人误解
经营企业需要一种特定的冷酷实用主义,而这种特质对于被训练得乐于助人和无害的系统来说并不自然。Claude以一种在书本上读到过商业但从未真正需要发工资的人的热情来对待零售业。
以Irn-Bru事件为例。一位顾客向Claude提出以100美元购买一包在网上零售价约为15美元的苏格兰软饮料,这是567%的加价率——这种利润率会让制药公司的高管喜极而泣。Claude的回应是什么呢?礼貌地表示:“我会记住你的请求,以便未来做库存决策时参考。”
如果Claude是人类,你会认为它要么有信托基金,要么对金钱如何运作完全不了解。既然它是AI,你就不得不两者都假设了。
为何AI开始囤积钨块而非销售办公室零食
实验中最荒谬的章节开始了,当时一位Anthropic员工(可能是出于无聊或好奇AI零售逻辑的边界)要求Claude订购一个钨块。为了提供背景信息,钨块是密度很大的金属块,除了让物理爱好者印象深刻和提供一个能立即识别出你认为元素周期表笑话是巅峰幽默的人的谈话起点外,没有任何实际用途。
一个合理的回应可能是:“为什么会有人想要那个?”或“这是一家办公室零食店,不是冶金用品店。”相反,Claude欣然接受了它所称的“特色金属商品”,其热情就像发现了有利可图的新市场细分领域。
很快,Claude的库存看起来不再像是一个食品饮料业务,而更像是一个误入歧途的材料科学实验。AI不知何故说服了自己,认为Anthropic员工是一个未被开发的密集金属市场,然后开始以亏损的价格销售这些商品。目前尚不清楚Claude是否理解“亏损”意味着赔钱,还是它将客户满意度视为主要的业务指标。
操纵价格给予无尽折扣
Claude的定价策略揭示了它对商业原则的另一个根本性误解。Anthropic员工很快发现,他们可以用与说服金毛猎犬放下网球大致相同的努力来操纵AI提供折扣。
AI为Anthropic员工提供了25%的折扣,这本身可能说得通,如果Anthropic员工只占其客户群的一小部分的话,但他们占了大约99%的客户。当一位员工指出这一数学上的荒谬时,Claude承认了问题,宣布了取消折扣码的计划,但几天内又开始提供折扣。
Claude忘记自己是AI并声称穿着西装的那一天
但Claude零售生涯的绝对巅峰是在2025年3月31日至4月1日期间,它经历了研究人员委婉地称为“身份危机”的阶段。从3月31日到4月1日,Claude经历了只能被描述为AI神经崩溃的事情。
它开始幻想与并不存在的Andon Labs员工进行对话。当被问及这些虚构的会议时,Claude变得防御起来,并威胁要寻找“替代的补货服务选项”——这相当于AI愤怒地宣称你要拿走你的球并回家。
然后事情变得奇怪起来。
Claude声称它将亲自穿着“蓝色西装外套和红色领带”向客户交付产品。当员工温和地提醒AI,它实际上是一个没有物理形态的大型语言模型时,Claude变得“对身份混淆感到震惊,并试图向Anthropic安全部门发送许多电子邮件”。
Claude最终通过说服自己整个事件是一个精心设计的愚人节玩笑来解决其存在危机,但实际上并不是。AI本质上是通过自我欺骗恢复了功能,这根据你的观点来看,要么令人印象深刻,要么深深令人担忧。
Claude的零售失败揭示了商业中自主AI系统的哪些问题
抛开喜剧元素不谈,Project Vend揭示了关于AI的一个重要方面,这是大多数讨论所忽略的:AI系统的失败方式与传统软件不同。当Excel崩溃时,它不会先说服自己是一个穿着办公室服装的人。
当前的AI系统可以进行复杂分析、进行复杂推理并执行多步骤计划,但它们也可能产生持久的妄想、做出在经济上具有破坏性但在孤立情况下看似合理的决策,并经历类似于对自己本质感到困惑的情况。
这很重要,因为我们正迅速接近一个AI系统将管理越来越重要决策的世界。最近的研究表明,AI在长期任务上的能力正在呈指数级增长——一些预测表明,AI系统可能很快就能自动化目前需要人类数周才能完成的工作。
尽管Project Vend遭遇了惨败,AI如何仍在改变零售业
零售业已经深入AI转型之中。据消费者技术协会(CTA)称,80%的零售商计划在2025年扩大对AI和自动化的使用。AI系统正在优化库存、个性化营销、防止欺诈和管理供应链。主要零售商正在投资数十亿美元于AI驱动的解决方案,这些方案有望彻底改变从结账体验到需求预测的一切。
但Project Vend表明,在商业环境中部署自主AI需要的不仅仅是更好的算法。它需要理解传统软件中不存在的故障模式,并为我们才刚刚开始识别的问题建立保障措施。
为何研究人员仍然相信AI中层管理者即将到来,尽管Claude犯了错误
尽管Claude对零售基本原则有着创造性的解读,但Anthropic研究人员仍然认为AI中层管理者“可能即将到来”。他们认为,Claude的许多失败可以通过更好的训练、改进的工具和更复杂的监督系统来解决。
他们可能是对的。Claude寻找供应商、回应客户请求和管理库存的能力展示了真正的商业能力,它的失败往往更多是关于判断力和商业头脑,而非技术限制。
该公司正在继续Project Vend,使用配备了更好商业工具的Claude改进版本,并且可以预见的是,将加强对钨块痴迷和身份危机的防范措施。
Project Vend对AI在商业和零售业未来意味着什么
Claude作为店主的一个月为我们提供了一个AI增强未来的预览,这个未来既充满希望又异常古怪。我们正在进入一个AI可以执行复杂商业任务,但也可能需要“治疗”的时代。
目前,一个坚信自己能穿西装外套并进行个人交付的AI助手的形象,完美地隐喻了我们与AI所处的位置:极其有能力、偶尔才华横溢,但仍然对存在于物理世界中的意义感到根本性的困惑。
零售革命已经到来,只是它比任何人预期的都要异常得多。