让AI像人类一样认知真实世界！UCLA谷歌强强联手，长时记忆+3D空间理解超越基线16.5%

想象一下，你在一个陌生的房子里寻找合适的礼物盒包装泰迪熊，需要记住每个房间里的物品特征、位置关系，并根据反馈调整行动。这一系列过程依赖人类强大的空间-时间长时记忆。图片如何让AI在3D环境中像人类一样思考，一直是具身智能领域的难题。

想象一下，你在一个陌生的房子里寻找合适的礼物盒包装泰迪熊，需要记住每个房间里的物品特征、位置关系，并根据反馈调整行动。

这一系列过程依赖人类强大的空间-时间长时记忆。

图片

如何让AI在3D环境中像人类一样思考，一直是具身智能领域的难题。

加州大学洛杉矶分校（UCLA）与谷歌研究院的研究团队带来了最新进展：3DLLM-MEM模型与3DMEM-BENCH基准，让AI首次具备在复杂3D环境中构建、维护和利用长时记忆的能力。

图片

挑战：3D环境中的记忆困境

现有大语言模型（LLMs）在文本理解中表现卓越，但当“进入”动态3D环境时却举步维艰。存在以下问题：

长时记忆断层在多房间任务中（如跨客厅、卧室、厨房寻找物品），模型难以关联不同时空的观察，常因“遗忘”关键信息导致任务失败。
空间表征缺失传统模型依赖稀疏或物体中心的表征，无法捕捉3D环境中复杂的几何关系（如家具布局、物体尺寸对比），而这些细节对任务成败至关重要（如判断礼物盒是否“太松”或“太大”）。
时空动态管理环境变化（如移动家具、使用物品）会导致记忆过时，但现有模型缺乏动态更新机制，难以区分“旧记忆”与“新状态”。

简单地说，模型无法像人类一样形成“认知地图”并灵活调用记忆的核心问题在于缺乏针对3D空间-时间的记忆建模。

突破：3DMEM-BENCH基准与3DLLM-MEM模型

图片

为系统评估具身智能的记忆能力，研究团队构建了3DMEM-BENCH——首个3D长时记忆评估基准。

其核心特点包括：

1.大规模与多样性

包含26,000+轨迹、1,860个具身任务（从简单物品收集到复杂跨房间推理），覆盖182个3D场景（平均每个场景18个房间）。

2.多维度评估

具身任务：要求模型执行跨房间动作链（如“在客厅找到泰迪熊，到卧室试装小盒子，再到厨房试装大盒子，最终返回客厅选择最合适的盒子”）。
时空问答（EQA）：测试空间关系推理（如“任务完成后，站在餐桌前，梳妆台在左侧还是右侧？”）。
场景描述：总结多房间记忆中的共性与差异（如“之前的房间有橱柜和床，当前房间独特之处在于整面墙的衣柜”）。

3.难度分级

任务分为简单（3房间）、中等（5房间）、困难（10房间），并包含“野外挑战”（从未见过的物体或场景），全面考察模型泛化能力。

4.对比现有基准

相较于ALFWorld、Behavior-1K等，3DMEM-BENCH首次聚焦“长时记忆”与“3D空间理解”的结合，填补了领域空白。

图片

针对记忆难题，研究团队提出3DLLM-MEM模型——一款双记忆系统驱动的具身智能体。

其设计灵感源自人类认知结构：

1.双记忆架构

工作记忆（Working Memory）：存储当前观察（如“当前房间的书架上有红色盒子”），容量有限但动态更新。
情景记忆（Episodic Memory）：以密集3D表征存储历史观察与交互（如“厨房的蓝色盒子太大，卧室的绿色盒子太小”），可扩展且包含时空位置信息。

2.记忆融合模块

工作记忆作为“查询”，从情景记忆中选择性提取与任务相关的特征（如“寻找合适礼物盒”时，重点关注曾见过的盒子尺寸、位置），通过注意力机制融合两者，既避免记忆过载，又确保关键信息不被遗漏。

3.动态更新机制

当环境变化（如移动盒子），模型自动更新情景记忆，确保记忆与当前状态一致。

图片

3DLLM-MEM的核心优势在于：通过“选择性记忆检索+时空特征融合”，模型在复杂环境中既能聚焦任务关键信息，又能维持记忆效率。

验证：超越基线16.5%的记忆能力

图片

在3DMEM-BENCH上的实验表明，3DLLM-MEM显著优于现有方法。

1.具身任务成功率

在最具挑战性的“野外困难任务”中，3DLLM-MEM成功率达27.8%，远超基线模型（如“最近记忆”仅5%，“检索增强记忆”仅10.6%）。
在“野外任务”整体成功率上，3DLLM-MEM达32.1%，比最强基线高16.5%。

2.时空推理能力

在EQA任务中，3DLLM-MEM在“空间关系”“跨房间对比”等子任务上准确率超60%，而传统3D-LLM因上下文限制，准确率不足10%。

3.记忆效率

3DLLM-MEM模型通过“动态融合”机制，仅需处理与当前任务相关的记忆片段，计算成本比“全记忆存储”降低，同时保持高推理精度。

典型案例包括：在“准备早餐”任务中，3DLLM-MEM模型先在厨房寻找咖啡机未果，转而利用记忆中“餐厅有茶壶”的信息，调整策略煮茶完成任务，体现了灵活的记忆调用与任务规划能力。

尽管3DLLM-MEM已实现重大突破，研究团队也指出其局限性：目前模型依赖模拟器的高层动作预设，未来需与底层导航和控制结合。

论文连接: https://arxiv.org/abs/2505.22657项目主页: https://3dllm-mem.github.io