参数量仅为4%,性能媲美GPT-3:开发者图解DeepMind的RETRO

构建越来越大的模型并不是提高性能的唯一方法。

从 BERT 到 GPT-2 再到 GPT-3,大模型的规模是一路看涨,表现也越来越惊艳。增大模型规模已经被证明是一条可行的改进路径,而且 DeepMind 前段时间的一些钻研表明:这条路还没有走到头,继续增大模型依然有着可观的收益。但与此同时,我们也知道,增大模型可能并不是提升性能的唯一路径,前段时间的几个钻研也证明了这一点。其中比较有代表性的钻研要数 DeepMind 的 RETRO Transformer 和 OpenAI 的 WebGPT。这两项钻研表明,如果我们用一种搜索 / 查询信息的方式来增强模型,小一点的天生说话模型也能达到以前大模型才能达到的性能。在大模型一统天下的今天,这类钻研显得非常难能可贵。在这篇文章中,擅长机器学习可视化的知名博客作者 Jay Alammar 详细分析了 DeepMind 的 RETRO(Retrieval-Enhanced TRansfOrmer)模型。该模型与 GPT-3 性能相当,但参数量仅为 GPT-3 的 4%。

参数量仅为4%,性能媲美GPT-3:开发者图解DeepMind的RETRO

参数量仅为4%,性能媲美GPT-3:开发者图解DeepMind的RETRO

RETRO 整合了从数据库中检索到的信息,将其参数从昂贵的事例和世界知识存储中解放出来。在 RETRO 以前,钻研社区也有一些工作采用了类似的方法,因此本文并不是要解释它的新颖性,而是该模型本身。将说话信息和世界知识信息分离开来一般来讲,说话模型的任务就是做填空题,这项任务有时候需要与事例有关的信息,比如参数量仅为4%,性能媲美GPT-3:开发者图解DeepMind的RETRO但有时候,如果你对某种说话比较熟悉,你也可以直接猜出空白部分要填什么,例如:参数量仅为4%,性能媲美GPT-3:开发者图解DeepMind的RETRO这种区别非常重要,因为大型说话模型将它们所知道的一切都编码到模型参数中。虽然这对于说话信息是有意义的,但是对于事例信息和世界知识信息是无效的。加入检索方法之后,说话模型可以缩小很多。在文本天生过程中,神经数据库可以帮助模型检索它需要的事例信息。参数量仅为4%,性能媲美GPT-3:开发者图解DeepMind的RETRO随着训练数据记忆量的减少,我们可以使用较小的说话模型来加速训练。任何人都可以在更小、更便宜的 GPU 上部署这些模型,并根据需要对它们进行调整。从结构上看,RETRO 是一个编码器 – 解码器模型,就像原始的 Transformer。然而,它在检索数据库的帮助下增加了输出序列。该模型在数据库中找到最可能的序列,并将它们增添到输出中。RETRO 利用它的魔力天生输出预测。

参数量仅为4%,性能媲美GPT-3:开发者图解DeepMind的RETRO

在探索模型架构以前,让我们先深入挖掘一下检索数据库。RETRO 的检索数据库此处的数据库是一个键值存储(key-value store)数据库。其中 key 是标准的 BERT 句子嵌入,value 是由两部分构成的文本:

Neighbor,用于计算 key;

Completion,原文件中文本的延续。

RETRO 的数据库包含基于 MassiveText 数据集的 2 万亿个多说话 token。neighbor chunk 和 completion chunk 的长度最多为 64 个 token。

参数量仅为4%,性能媲美GPT-3:开发者图解DeepMind的RETRO

RETRO 数据库内部展示了 RETRO 数据库中键值对的示例。RETRO 将输出提醒分成多个 chunk。为简单起见,此处重点关注如何用检索到的文本扩充一个 chunk。但是,模型会针对输出提醒中的每个 chunk(第一个 chunk 除外)执行此过程。数据库查找在点击 RETRO 以前,输出提醒进入 BERT。对输出的上下文向量进行平均以构建句子嵌入向量。然后使用该向量查询数据库。

参数量仅为4%,性能媲美GPT-3:开发者图解DeepMind的RETRO

使用 BERT 解决输出提醒会天生上下文化的 token 嵌入 。对它们求平均值会产生一个句子嵌入。然后将该句子嵌入用于近似最隔壁搜索。检索两个最隔壁,它们的文本成为 RETRO 输出的一部分。

参数量仅为4%,性能媲美GPT-3:开发者图解DeepMind的RETRO

BERT 句子嵌入用于从 RETRO 的神经数据库中检索最隔壁。然后将这些增添到说话模型的输出中。现在 RETRO 的输出是:输出提醒及其来自数据库的两个最隔壁(及其延续)。从这里开始,Transformer 和 RETRO 块将信息合并到它们的解决中。

参数量仅为4%,性能媲美GPT-3:开发者图解DeepMind的RETRO

检索到的隔壁被增添到说话模型的输出中。然而,它们在模型内部的解决方式略有不同。高层次的 RETRO 架构RETRO 的架构由一个编码器客栈和一个解码器客栈构成。

参数量仅为4%,性能媲美GPT-3:开发者图解DeepMind的RETRO

RETRO Transformer 由一个编码器客栈(解决隔壁)和一个解码器客栈(解决输出)构成。编码器由标准的 Transformer 编码器块(self-attention + FFNN)构成。Retro 使用由两个 Transformer 编码器块构成的编码器。解码器客栈包含了两种解码器 block:

标准 Transformer 解码器块(ATTN + FFNN)

RETRO 解码器块(ATTN + Chunked cross attention (CCA) + FFNN)

参数量仅为4%,性能媲美GPT-3:开发者图解DeepMind的RETRO

构成 RETRO 的三种 Transformer 模块。编码器客栈会解决检索到的隔壁,天生后续将用于注意力的 KEYS 和 VALUES 矩阵。解码器 block 像 GPT 一样解决输出文本。它对提醒 token 应用自注意力(因此只关注以前的 token),然后通过 FFNN 层。参数量仅为4%,性能媲美GPT-3:开发者图解DeepMind的RETRO只有到达 RETRO 解码器时,它才开始合并检索到的信息。从 9 开始的每个第三个 block 是一个 RETRO block(允许其输出关注隔壁)。所以第 9、12、15…32 层是 RETRO block。参数量仅为4%,性能媲美GPT-3:开发者图解DeepMind的RETRO下图展示了检索到的信息可以浏览完成提醒所需的节点步骤。参数量仅为4%,性能媲美GPT-3:开发者图解DeepMind的RETRO原文链接:http://jalammar.github.io/illustrated-retrieval-transformer/

原创文章,作者:机器之心,如若转载,请注明出处:https://www.iaiol.com/news/can-shu-liang-jin-wei-4-xing-neng-pi-mei-gpt3-kai-fa-zhe-tu/

(0)
上一篇 2021年 12月 31日 下午12:46
下一篇 2022年 1月 4日 下午3:49

相关推荐

  • 中科大吴枫获IEEE CAS最高荣誉奖项,11位学者获ACM四大手艺奖项

    5 月 24 日,IEEE 电路与体系(CAS)学会将 2021 年度 IEEE CAS Mac Van Valkenburg 奖授予中国科学手艺大学吴枫教授,以表彰他对「多媒体非均匀编码和通信的孝敬」,时隔不久,5 月 26 日,计算机协会(Association for Computing Machinery)宣布了四项著名手艺奖的获得者。

    2021年 5月 27日
  • 大模型、RISC-V、边缘计算,这场大咖云集的开发者盛会全日程公布(别忘了抽显卡)

    4 场 Keynote、9 场中心报告、线上「开发者十问」环节、2021 年云帆奖颁奖典礼,2021 世界人工智能大会(WAIC)AI 开发者论坛全日程公布。届时,来自学术界和产业界的 15 位嘉宾将以「后深度学习的 AI 时代」为中心与现场观众进行交流分享。

    2021年 6月 29日
  • 火了一整年的多模态进修,在工业界的落地和实践进展到底怎么样了?

    在小红书,看见多模态进修的无限可能。

    2022年 11月 23日
  • 除了缺少点创意,GPT-3写出了及格的大学毕业论文,只需20分钟

    GPT-3 写的论文及格了吗?教育资源网站 EduRef 对此进行了一项尝试,效果还行,及格水平。

    2021年 3月 2日
  • 技能破局?畅谈元宇宙大浪下的AI技能流实践机遇与挑拨

    「机器之心2021-2022年度AI趋势大咖说」聚焦「驱动将来的AI技能」与「重塑产业的AI科技」,推出线上分享,共邀请近40位AI领域知名学者、产业专家及企业高管通过主题分享及多人圆桌等形式,与行业精英、读者、观众共同回顾 2021年中的重要技能和学术热点,盘点AI产业的年度研究目标以及重大科技突破,展望2022年度AI技能开展目标、AI技能与产业科技融合趋势。

    2022年 7月 26日
  • 元宇宙虚构数字人的建立与将来身份系统

    「机器之心2021-2022年度AI趋势大咖说」聚焦「启动将来的AI技术」与「重塑产业的AI科技」,推出线上分享,共邀请近40位AI领域知名学者、产业专家及企业高管通过主题分享及多人圆桌等形式,与行业精英、读者、观众共同回顾 2021年中的重要技术和学术热点,盘点AI产业的年度研究方向以及重大科技突破,展望2022年度AI技术发展方向、AI技术与产业科技融合趋势。

    2022年 8月 1日
  • 观点 | 物理车钥匙该退出历史舞台了吗?

    原作者 / BENGT HALVORSON:Green Car Reports编辑、Internet Brands Automotive Group高级编辑,已从事汽车行业报道工作20余年。编译 / Angelina上周五晚上(11月19日),一些特斯拉车主遇到了棘手难题——特斯拉的APP或者网络出现错误,致使他们无法连接到自己的车辆,并且其中一部分人,根本无法加入车内并驾驶。 这次错误致使特斯拉的手机钥匙功效,对部分人来说变得毫无用处,而并不是由车辆本身的硬件问题所致使。「看起来我们大概不小心增加了过多

    2021年 11月 23日
  • 博弈论让 AI 更加精确、高效,LLM 与自己竞争

    编辑 | 绿罗想象一下,你有一位朋友对同一课题给出了分歧的谜底,具体取决于你提问的方式。「秘鲁的首都是哪里?」会获得一个谜底;「利马是秘鲁的首都吗?」 会获得另一个。你能够会有点担心你朋友的智力,而且你几乎很难相信他们给出的任何谜底。这正是许多大型谈话模型 (LLM) 正在发生的事,这些超强大的机器学习工具为 ChatGPT 和其他人工智能奇迹提供了动力。开放式的生成性课题会产生一个谜底,而涉及必须在选项之间进行采用的判断性课题,通常会产生分歧的谜底。麻省理工学院的博士生 Athul Paul Jacob 表示:「

    AI 2024年 5月 13日
  • 性能提升、成本降低,这是分布式强化进修算法最新研究进展

    深度强化进修(Deep Reinforcement Learning,DRL)是一种公认的解决连续决策问题的有效技术。为了应对 DRL 的数据低效(data inefficiency)问题,受到分布式机器进修技术的启发,分布式深度强化进修 (distributed deep reinforcement learning,DDRL) 已提出并成功应用于盘算机视觉和自然语言处理领域。有观点认为,分布式强化进修是深度强化进修走向大规模应用、解决复杂决策空间和长期规划问题的必经之路。分布式强化进修是一个综合的研究子领域,需

    2024年 2月 15日
  • 网传张益唐宣称解决黎曼猜测有关朗道-西格尔零点猜测,论文11月将公布

    张益唐曾表示:不要盲目崇拜权威,要敢于挑战传统。对那些别人说不可能做到的事,要勇于探索。如果真正热爱,就永不放弃。

    2022年 10月 16日

发表回复

您的电子邮箱地址不会被公开。 必填项已用 * 标注