增大模型依然有用,DeepMind用2800亿参数的Gopher,测试谈话系统极限

DeepMind 连发三篇论文,全面阐述大规模谈话模型依然在进展之中,能力也在继续增强。近年来,国内外各大 AI 巨头的大规模谈话模型(large language model,LLM)一波接着一波,如 OpenAI 的 GPT-3、智源研讨院的悟道 2.0 等。大模型已然成为社区势不可挡的发展趋势。然而,当前谈话模型存在着一些问题,比如逻辑推理较弱。那么,我们是否可以仅通过添加更多数据和算力的情况下革新这些问题呢?或者,我们已经达到了谈话模型相关技术范式的极限?今日,DeepMind「一口气」发表了三篇论文,目的

DeepMind 连发三篇论文,全面阐述大规模谈话模型依然在进展之中,能力也在继续增强。

近年来,国内外各大 AI 巨头的大规模谈话模型(large language model,LLM)一波接着一波,如 OpenAI 的 GPT-3、智源研讨院的悟道 2.0 等。大模型已然成为社区势不可挡的发展趋势。然而,当前谈话模型存在着一些问题,比如逻辑推理较弱。那么,我们是否可以仅通过添加更多数据和算力的情况下革新这些问题呢?或者,我们已经达到了谈话模型相关技术范式的极限?今日,DeepMind「一口气」发表了三篇论文,目的之一就是解决当前谈话模型存在的问题。DeepMind 得出的结论是进一步扩展大规模谈话模型应该会带来大量的革新。此前在一次电话简报会上,DeepMind 研讨科学家 Jack Rae 表示,「这些论文的一个关键发现是大规模谈话模型依然在进展之中,能力也在继续增强。这个领域并没有停滞不前。」

图片

博客地址:https://deepmind.com/blog/article/language-modelling-at-scale这三篇论文的主题分别如下:

一个具有 2800 亿参数的 transformer 谈话模型 Gopher;

谈话模型带来的道德和社会风险及危害;

通过检索数万亿 token 来革新谈话模型的新办法 RETRO。

本文机器之心将对大模型 Gopher 和 RETRO 模型从事简单介绍。Gopher:2800 亿参数,接近人类阅读理解能力DeepMind 用一篇 118 页的论文介绍了全新的谈话模型 Gopher 及其 Gopher 家属,论文作者也差不多达到 100 人。

图片

论文地址:https://storage.googleapis.com/deepmind-media/research/language-research/Training%20Gopher.pdf在探索谈话模型和开发新模型的过程中,DeepMind 探索了 6 个不同巨细的 Transformer 谈话模型,参数量从 4400 万到 2800 亿不等,架构细节如表 1 所示。其中参数量最大的模型被命名为 Gopher,具有 2800 亿参数,他们并将整个模型集称为 Gopher 家属。这些模型在 152 项不同的恣意上从事了评价,在大多数情况下实现了 SOTA 本能。此外,DeepMind 还提供了对训练数据集和模型行为的整体分析,涵盖了模型规模与偏差等。最后,DeepMind 讨论了谈话模型在 AI 安全和减轻下游危害方面的应用。

图片

DeepMind 采取自回归 Transformer 架构为基础,并从事了两处修改:将 LayerNorm 替换为 RMSNorm ;应用相对位置编码而不是绝对位置编码。此外 DeepMind 应用拥有 32000 个词汇量的 SentencePiece 对文本从事 token 化,并应用字节级 backoff 来支持开放词汇模型。训练DeepMind 应用 Adam 优化器,所有模型的训练共有 3000 亿个 token,采取 2048token 上下文窗口办法。在训练的前 1500 step 中,学习率从 10^−7 增加到最大,之后采取 cosine schedule 再将学习率衰减到 1/10。随着模型尺寸的增加,研讨者会相应的降低最大学习率并增加每 batch 中的 token 数量,如表 1 所示。DeepMind 结合了 bfloat16 数字格式来减少内存并增加训练吞吐量。小于 7.1B 的模型应用混合精度 float32 参数和 bfloat16 激活从事训练,而 7.1B 和 280B 应用 bfloat16 激活和参数。训练基础设施DeepMind 采取 JAX 来构建训练和评价的代码库。特别地,该研讨应用 JAX 的 pmap 转换来提高数据和模型并行性,所有模型的训练和评价是在 TPUv3 芯片上从事的。此外,DeepMind 还采取了优化器状态分区、模型并行性和 rematerialisation 来划分模型状态并减少激活,因此这种办法适合 TPU 内存。DeepMind 发现 TPUv3 具有快速跨芯片通信的能力,因此数据、模型并行性在 TPUv3 上的开销都很低,并且在训练 Gopher 时仅产生 10% 的开销。因此,该研讨发现,在训练规模超过 1024-chip pod 之前,TPU 无需从事 pipelining 操作,这大大简化了中型模型的训练。

图片

训练数据集DeepMind 在 MassiveText 上训练 Gopher 模型家属,MassiveText 包括网页、书籍、新闻和代码等文本,包含约 23.5 亿个文档, 10.5 TB 的文本量。表 2 详细列出了该数据集。

图片

结果DeepMind 深入调查了这些不同巨细模型的优缺点,强调扩展模型会提高其本能——例如,在阅读理解、事实核查和有害谈话识别等领域。该研讨在 152 个恣意中对 Gopher 及其家属模型从事了本能评价。DeepMind 将这些结果与 SOTA 谈话模型(LM 本能的 124 个恣意)、应用特定恣意数据的监督办法、人类专家本能从事了比较。以下摘取了一些主要结果。例如,在逻辑推理和常识性恣意中的本能比较:

图片

按类别划分的海量多恣意谈话理解 (MMLU) 基准测试本能。Gopher 在几个类别上优于之前的工作。在这项研讨中,研讨者发现 Gopher 在一些关键恣意上的能力超过了当前的谈话模型,包括大规模多恣意谈话理解 (MMLU) 基准。在一项恣意上,Gopher 展现出了重大进展,媲美人类专家的水准。除了对 Gopher 从事定量评价外,DeepMind 的研讨者还通过直接互动的方式对模型从事了测验。结果表明,当 Gopher 被提示从事对话互动 (比如在聊天中) 时,该模型有时可以表现出令人惊讶的连贯性。

图片

在这里,Gopher 可以讨论细胞生物学并提供正确的引用来源,即使此前尚未从事过具体对话的微调。这项研讨还详细描述了几种不同模型巨细的故障模式,其中包括重复倾向、常规偏见反映以及错误信息传播。

图片

对谈话模型基准测试,DeepMind 在图 2 中扩展了 Gopher 与当前 178B SOTA 模型 Jurassic-1 和 175B GPT-3 的相对本能结果。结果表明 Gopher 在 19 项恣意中有 8 项没有超过 SOTA 技术,尤其是在 Ubuntu IRC 和 DM Mathematics 上表现不佳。 

图片

如图 4 所示, Gopher 在绝大多数恣意上都表现出了本能提升——只有在 16 个恣意上(总共 152 个恣意)的本能提升为零。相比之下,在 57 个恣意有小幅革新,相对本能提升高达 25%,在 79 个恣意有超过 25% 的显着革新。

图片

这种类型的分析是重要的,理解和记录故障模式可以深入了解大谈话模型是如何产生下游危害的,也提示了研讨中的缓解办法应该集中在哪些方面来解决这些问题。RETRO:带有互联网规模检索的高效训练另一篇论文是 DeepMind 在 Gopher 的基础上,提出了一种革新的谈话模型架构。该架构降低了训练的资源成本,并使模型输出更容易追踪到训练语料库中的来源。

图片

论文地址:https://storage.googleapis.com/deepmind-media/research/language-research/Improving%20language%20models%20by%20retrieving.pdf具体而言,该研讨提出了一种检索增强的自回归谈话模型 Retrieval-Enhanced Transformer (RETRO) ,应用互联网规模的检索机制从事预训练。受大脑在学习时依赖专用记忆机制的启发,RETRO 能够有效地查询文本段落以革新其预测。通过将生成的文本与 RETRO 生成所依赖的段落从事比较,可以解释模型做出某些预测的原因以及它们的来源。此外,研讨者还发现该模型能够获得与常规 Transformer 相当的本能,参数少一个数量级,并在多个谈话建模基准上获得 SOTA 本能。

图片

该研讨设计的检索增强架构能够从具有数万亿个 token 的数据库中检索。为此,该办法对连续 token 块(chunk)从事检索,而非单个 token,这样借助线性因子减少了存储和计算需求。该办法首先构建了一个键值对(key-value)数据库,其中值存储原始文本 token 块,键是 frozen Bert 嵌入(Devlin et al., 2019)。通过应用 frozen 模型来避免在训练期间定期重新计算整个数据库的嵌入。然后将每个训练序列分成多个块,这些块通过从数据库中检索到的 K 最近邻从事扩充。编码器 – 解码器架构将检索块集成到模型的预测中,RETRO 的架构如下图所示。

图片

如下图所示,研讨者用实验数据表明该办法能够很好地适应不同的模型巨细和数据集巨细。

图片

该研讨还在问答恣意上评价比较了 RETRO 模型和其他几种模型的本能,结果如下表所示。

图片

文章部分内容来源:https://www.theverge.com/2021/12/8/22822199/large-language-models-ai-deepmind-scaling-gopher

原创文章,作者:机器之心,如若转载,请注明出处:https://www.iaiol.com/news/zeng-da-mo-xing-yi-ran-you-yong-deepmind-yong-2800-yi-can/

(0)
上一篇 2021年 12月 9日 上午9:41
下一篇 2021年 12月 9日 下午7:37

相关推荐

  • 元宇宙中的这些新物种流派来了

    元宇宙有多火,已经无需赘言。似乎不投元宇宙的VC,已经是古典VC,没听过元宇宙,和没听过互联网一样out了。不过,一千个人心中有一千个元宇宙,如何定义它,它又如何从概念落地为应用呢?科幻电影《头号玩家》是最接近元宇宙想象的影视模型,故事虽然偏赛博朋克,但它提及的平行全国和元宇宙的设想不谋而合。Metaverse元宇宙,meta指“超越”,universe指“宇宙”。原始概念来自于1992年的一部美国小说《雪崩》。这部小说描述了一个相对实际全国平行但又超越其上的假造全国

    2022年 4月 11日
  • 参加这场大佬云集的开发者大会,还能抽RTX3060,请叫我「良心之心」

    这是一场 AI 开发者的盛会!2021 WAIC AI 开发者论坛上,多位业界大咖齐聚一堂,共同探讨后深度学习时代的 AI 发展。目前,AI 开发者论坛招募活动已经开启,1000 席免费专业观众席位 7 月 2 日报名截止。7 月 10 日上海,不见不散。

    2021年 6月 25日
  • 著名统计学家David Cox去世:他提出的「COX返回模型」曾影响一代人

    他提出的「COX 返回模型」曾深刻地影响了统计学研究。昨晚,英国著名统计学家 David Cox 去世,享年 97 岁。David Cox 因提出「COX 返回模型」而广为人知,并深刻地影响了统计学规模的研究。许多人自发地在社交媒体平台表达了悲痛和哀悼:David Cox 生平David Cox1924 年出生于英国伯明翰,在剑桥大学圣约翰学院学习数学,并在 Henry Daniels 和 Bernard Welch 的指导下于 1949 年在利兹大学获取博士学位。1950 年到 1956 年期间,David Co

    2022年 1月 20日
  • 茂密化 芯力量|墨芯参展首日S4估计卡机能表现亮眼

    2022年7月15日,墨芯人工智能参展厦门半导体峰会,首席科学家严恩勖发表报告,展示墨芯如何用茂密化推动AI估计前沿和最新的产业进展。16日墨芯获评“最具投资价值奖”。集微峰会被誉为“半导体业风向标”,设特色“芯力量”展区和EDA展区。墨芯位于“芯力量”展区核心位置——76号展台。   墨芯作为茂密化估计引领者,致力于提供云端和终端AI估计平台和服务,打造软硬共同的新一代智能计

    2022年 8月 17日
  • 华人一作统一「视觉-谈话」理解与天生:一键天生图象标注,完成视觉问答,Demo可玩

    这个 BLIP 模型可以「看图说话」,提取图象的主要内容,不仅如此,它还能回答你提出的关于图象的问题。

    2022年 2月 6日
  • 四位RISC先驱获「工程学界诺贝尔奖」,图灵奖得主David Patterson、John Hennessy获奖

    2022 年度的「工程学界诺贝尔奖」——查尔斯 · 斯塔克 · 德拉普尔奖颁给了四位 RISC 架构的先驱。其中,David A. Patterson 和 John L. Hennessy 是 2017 年的图灵奖得主,Stephen B. Furber 和 Sophie M. Wilson 共同计划了全球第一款商业 RISC 处理器——第一个 Arm 原型(Arm1)。

    2022年 1月 11日
  • 案例 | 二手车智能质检:以双流分组残差搜集为核心,结合计算机视觉构建智能车辆检测零碎

    汽车产业互联网平台大搜车针对车辆检测场景所开发的AI云检测解决规划,鉴于云-端交互的零碎架构,以双流分组残差搜集作为主干搜集,结合计算机视觉技能,以专业化的智能设备代替人眼识别,以数据分析代替主观经验,在最大程度降低人为影响因素的前提下,兑现毫秒级实时检测。中国二手车交易行业:二手车辆检测工作依赖人为、耗时冗长,亟待智能技能提高检测效能近年来,中国二手车消费市场规模进一步扩大,2019年中国二手车市场交易额已突破1万亿元。然而由于二手车的“非标”属性,一车一况之下,车辆检测作为二手车交易流程

    2021年 7月 27日
  • WAIC 2021 | 云天励飞副总裁肖嵘:创「芯」时代 打造自进化都市智能体

    在 WAIC 2021 AI 开发者论坛上,肖嵘发表主题演讲《创「芯」时代 打造自进化都市智能体》,在演讲中,他主要介绍了自进化都市智能体,并介绍了云天励飞最新研究成果及成功案例。

    2021年 7月 19日
  • CVPR 2022 | 图象也是德布罗意波!华为诺亚&北大提出量子启发MLP,机能超越Swin Transfomer

    来自华为诺亚方舟实验室、北京大学、悉尼大学的研究者提出了一种受量子力学启发的视觉 MLP 新架构。

    2022年 3月 16日
  • 钢铁之躯,人工大脑,华夏机器人的十年故事

    日本记者高桥风行心中惊叹,口呼神奇。一台亮白色的人形机器人正为他捶背按摩,五指灵活,对位准确。只从手上按摩这一个复杂动作,就能窥出几分造物的精妙来。高桥站起来,看着这个不到自己胸口高的机器人,不仅可以大步行走在人潮汹涌的会场,还和忍不住凑上来的观众厮杀起了华夏象棋。Walker X下象棋这一幕发生在上海的2021全国人工智能大会(WAIC)的现场,会上,全全国顶尖的科技和AI公司纷纷秀出了肌肉,将AI、机器人的宏伟蓝图公之于众。这台代号Walker X的机器人就是本次大会的十大“镇馆之宝”之一。一台机器人,是制造能力

    2021年 7月 27日

发表回复

您的电子邮箱地址不会被公开。 必填项已用 * 标注