AI在线 AI在线

让AI像人类一样认知真实世界!UCLA谷歌强强联手,长时记忆+3D空间理解超越基线16.5%

想象一下,你在一个陌生的房子里寻找合适的礼物盒包装泰迪熊,需要记住每个房间里的物品特征、位置关系,并根据反馈调整行动。 这一系列过程依赖人类强大的空间-时间长时记忆。 图片如何让AI在3D环境中像人类一样思考,一直是具身智能领域的难题。

想象一下,你在一个陌生的房子里寻找合适的礼物盒包装泰迪熊,需要记住每个房间里的物品特征、位置关系,并根据反馈调整行动。

这一系列过程依赖人类强大的空间-时间长时记忆。

图片图片

如何让AI在3D环境中像人类一样思考,一直是具身智能领域的难题。

加州大学洛杉矶分校(UCLA)与谷歌研究院的研究团队带来了最新进展:3DLLM-MEM模型与3DMEM-BENCH基准,让AI首次具备在复杂3D环境中构建、维护和利用长时记忆的能力。

图片图片

挑战:3D环境中的记忆困境

现有大语言模型(LLMs)在文本理解中表现卓越,但当“进入”动态3D环境时却举步维艰。存在以下问题:

  • 长时记忆断层在多房间任务中(如跨客厅、卧室、厨房寻找物品),模型难以关联不同时空的观察,常因“遗忘”关键信息导致任务失败。
  • 空间表征缺失传统模型依赖稀疏或物体中心的表征,无法捕捉3D环境中复杂的几何关系(如家具布局、物体尺寸对比),而这些细节对任务成败至关重要(如判断礼物盒是否“太松”或“太大”)。
  • 时空动态管理环境变化(如移动家具、使用物品)会导致记忆过时,但现有模型缺乏动态更新机制,难以区分“旧记忆”与“新状态”。

简单地说,模型无法像人类一样形成“认知地图”并灵活调用记忆的核心问题在于缺乏针对3D空间-时间的记忆建模。

突破:3DMEM-BENCH基准与3DLLM-MEM模型

图片图片

为系统评估具身智能的记忆能力,研究团队构建了3DMEM-BENCH——首个3D长时记忆评估基准。

其核心特点包括:

1.大规模与多样性

包含26,000+轨迹、1,860个具身任务(从简单物品收集到复杂跨房间推理),覆盖182个3D场景(平均每个场景18个房间)。

2.多维度评估

  • 具身任务:要求模型执行跨房间动作链(如“在客厅找到泰迪熊,到卧室试装小盒子,再到厨房试装大盒子,最终返回客厅选择最合适的盒子”)。
  • 时空问答(EQA):测试空间关系推理(如“任务完成后,站在餐桌前,梳妆台在左侧还是右侧?”)。
  • 场景描述:总结多房间记忆中的共性与差异(如“之前的房间有橱柜和床,当前房间独特之处在于整面墙的衣柜”)。

3.难度分级

任务分为简单(3房间)、中等(5房间)、困难(10房间),并包含“野外挑战”(从未见过的物体或场景),全面考察模型泛化能力。

4.对比现有基准

相较于ALFWorld、Behavior-1K等,3DMEM-BENCH首次聚焦“长时记忆”与“3D空间理解”的结合,填补了领域空白。

图片图片

针对记忆难题,研究团队提出3DLLM-MEM模型——一款双记忆系统驱动的具身智能体。

其设计灵感源自人类认知结构:

1.双记忆架构

  • 工作记忆(Working Memory):存储当前观察(如“当前房间的书架上有红色盒子”),容量有限但动态更新。
  • 情景记忆(Episodic Memory):以密集3D表征存储历史观察与交互(如“厨房的蓝色盒子太大,卧室的绿色盒子太小”),可扩展且包含时空位置信息。

2.记忆融合模块

工作记忆作为“查询”,从情景记忆中选择性提取与任务相关的特征(如“寻找合适礼物盒”时,重点关注曾见过的盒子尺寸、位置),通过注意力机制融合两者,既避免记忆过载,又确保关键信息不被遗漏。

3.动态更新机制

当环境变化(如移动盒子),模型自动更新情景记忆,确保记忆与当前状态一致。

图片图片

3DLLM-MEM的核心优势在于:通过“选择性记忆检索+时空特征融合”,模型在复杂环境中既能聚焦任务关键信息,又能维持记忆效率。

验证:超越基线16.5%的记忆能力

图片图片

在3DMEM-BENCH上的实验表明,3DLLM-MEM显著优于现有方法。

1.具身任务成功率

  • 在最具挑战性的“野外困难任务”中,3DLLM-MEM成功率达27.8%,远超基线模型(如“最近记忆”仅5%,“检索增强记忆”仅10.6%)。
  • 在“野外任务”整体成功率上,3DLLM-MEM达32.1%,比最强基线高16.5%。

2.时空推理能力

在EQA任务中,3DLLM-MEM在“空间关系”“跨房间对比”等子任务上准确率超60%,而传统3D-LLM因上下文限制,准确率不足10%。

3.记忆效率

3DLLM-MEM模型通过“动态融合”机制,仅需处理与当前任务相关的记忆片段,计算成本比“全记忆存储”降低,同时保持高推理精度。

典型案例包括:在“准备早餐”任务中,3DLLM-MEM模型先在厨房寻找咖啡机未果,转而利用记忆中“餐厅有茶壶”的信息,调整策略煮茶完成任务,体现了灵活的记忆调用与任务规划能力。

尽管3DLLM-MEM已实现重大突破,研究团队也指出其局限性:目前模型依赖模拟器的高层动作预设,未来需与底层导航和控制结合。

论文连接: https://arxiv.org/abs/2505.22657项目主页: https://3dllm-mem.github.io

相关资讯

GPT-4比你更会问问题:让大模型自主复述,打破与人类对话的壁垒

在最新的人工智能领域动态中,人工生成的提示(prompt)质量对大语言模型(LLM)的响应精度有着决定性影响。OpenAI 提出的建议指出,精确、详细且具体的问题对于这些大语言模型的表现至关重要。然而,普通用户是否能够确保他们的问题对于 LLM 来说足够清晰明了?值得注意的是,人类在某些情境下的自然理解能力与机器的解读存在明显差异。例如,“偶数月” 这一概念,在人类看来很明显指的是二月,四月等月份,而 GPT-4 却可能将其误解为天数为偶数的月份。这不仅揭示了人工智能在理解日常语境上的局限性,也促使我们反思如何更有
11/13/2023 11:41:00 AM
机器之心

非侵入设备贴在脖子上,就能代替人类发声,研究登《自然通讯》

研究人员开发了一种由 AI 驱动的发声贴片,可以非侵入性地粘附在喉部帮助发声。在你看不到的地方,说话这件小事对于许多人来说「难于登天」:2014 年美国一项针对发声障碍的研究发现,近 1800 万成年人在使用声道说话时存在困难,而该群体中超过一半的人经历过言语衰弱问题的时间超过 10 年。现在,一种新型非侵入式可穿戴设备成为了这一医疗需求新的解决方法。该技术包括粘附在脖子上的轻质贴片,该贴片可以测量人的颈部运动。接着,设备处理器将这些信号转换为语音,然后播放语音音频来代替人类发声。这项研究由来自加州大学洛杉矶分校(
4/1/2024 11:06:00 AM
机器之心

会用ChatGPT≠工程师,谷歌资深员工发文,揭秘AI编程不为人知的真相

尽管程序员们纷纷反馈用上AI辅助之后,工作效率提升,但我们用到的软件中bug依旧不少。 针对这一现象,前谷歌产品经理Peter Szalontay,以及现任的谷歌Chrome的工程团队领导Addy Osmani都给出了自己的分析,并提供了一些如何使用AI辅助编程的建议。 AI编码工具的黑暗真相1月7日,前谷歌产品经理Peter Szalontay发推,并配上了一个令人惊心动魄的标题:「无人谈论的AI编码工具的黑暗真相」。
1/24/2025 9:10:00 AM
新智元
  • 1