在遍及数据集上基于自监督进修的预训练根蒂根基模型,已经展现出将学问迁移到不同下游工作的优秀能力。因此,这些模型也被运用到长期推理、控制、搜索和计划等更复杂的课题,或者被部署在对话、自动驾驶、医疗保健和机器人等运用中。未来它们也会提供接口给内部实体和智能体,例如在对话运用中,说话模型与人从事多轮交流;在机器人领域,感知控制模型在真实情况中执行动作。这些场景为根蒂根基模型提出了新的挑衅,包括:1) 如何从内部实体(如人对对话质量的评价)的反应中进修,2) 如何适应大规模说话或视觉数据集中不常见的模态(如机器人动作),3) 如何在未来从事长期的推理和计划。
这些课题一直是传统意义上递次决议的核心,涵盖了强化进修、模仿进修、计划、搜索和最优控制等领域。与根蒂根基模型使用数十亿图像和文本 token 的遍及数据集从事预训练的范式相反,以往关于递次决议制定的工作主要集中在工作特定或具有有限先验学问的白板设置上。尽管缺少或没有先验学问让递次决议看起来很难,但是对递次决议的研讨已经在多个工作上超越了人类表现,如玩棋盘游戏、雅达利(Atari)电子游戏以及操作机器人完成导航和操作等。然而,由于这些方法进修从零开始处理工作而没有来自视觉、说话或其它数据集的遍及学问,因此通常在泛化和样本效率方面表现不佳,例如需要 7 块 GPU 运行一天才能处理单个雅达利游戏。直觉上,类似于根蒂根基模型所用的遍及数据集也应该对递次决议制定模型有用。举例而言,互联网上有无数关于如何玩雅达利游戏的文章和视频。同样地,有关对象和场景属性的大量学问对于机器人非常有用,关于人类愿望和情感的学问也可以改善对话模型。虽然由于运用和关注点不同,根蒂根基模型和递次决议的研讨大体上是不相交的,但交汇的研讨也越来越多。在根蒂根基模型方面,随着大说话模型的出现,目标运用从简单的零样本或少样本工作扩展到现在需要长期推理或多次交互的课题 。相反在递次决议领域,受到大规模视觉和说话模型成功的启发,研讨人员开始为进修多模型、多工作和通用交互式智能体准备越来越大的数据集。两者领域之间的界线变得越来越模糊,一些最近的工作研讨了预训练根蒂根基模型(例如 CLIP 和 ViT)在视觉情况中 bootstrap 交互式智能体的训练,而其他工作则研讨了根蒂根基模型作为通过强化进修和人类反应从事优化的对话智能体。还有一些工作还调整大型说话模型以与内部对象交互,例如搜索引擎、计算器、翻译对象、MuJoCo 模拟器和程序解释器。最近,谷歌大脑团队、UC 伯克利和 MIT 的研讨者撰文表示,根蒂根基模型和交互式决议研讨相结合会让彼此受益。一方面,将根蒂根基模型运用于涉及内部实体的工作中,可以从交互式反应和长期计划中受益。另一方面,递次决议可以利用根蒂根基模型的世界学问更快地处理工作并从事更好的泛化。
论文地址:https://arxiv.org/pdf/2303.04129v1.pdf为了在这两个领域的交集上推动进一步的研讨,研讨者限定了用于决议制定的根蒂根基模型的课题空间。同时提供了理解当前研讨的技术对象,回顾了目前存在的挑衅和未处理的课题,并预测了处理这些挑衅的潜在处理方案和有前景的方法。论文概览论文主要分为以下 5 个主要章节。第 2 章回顾了递次决议的相关背景,并提供了一些根蒂根基模型和决议制定最好一起考虑的示例场景。随后讲述了围绕根蒂根基模型如何构建决议制定系统的不同组件。
第 3 章探讨了根蒂根基模型如何作为行为生成式模型(比如技能发现)和情况生成式模型(比如从事基于模型的推演)。
第 4 章探讨了根蒂根基模型如何作为状态、动作、奖励和转移动态的表示进修器(例如即插即用的视觉 – 说话模型、基于模型的表示进修)。
第 5 章探讨了说话根蒂根基模型如何作为交互式智能体和情况,使得可以在递次决议框架(说话模型推理、对话、对象使用)下考虑新课题和运用。
最后一章,研讨者概述了未处理的课题和挑衅,并提出了潜在的处理方案(例如如何利用遍及的数据、如何构建情况以及根蒂根基模型和递次决议的哪些方面可以得到改进)。
更多细节内容请参阅原论文。
原创文章,作者:机器之心,如若转载,请注明出处:https://www.iaiol.com/news/23488