5300亿参数的「威震天-图灵」,微软、英伟达合力造出超大语 言模型

在微软和英伟达的共同努力下, Turing NLG 17B 和 Megatron-LM 模型的继承者诞生了:5300 亿参数,天生强大,它的名字叫做「Megatron-Turing」。

刚刚,微软和英伟达联合推出了训练的「迄今为止最大、最强大的 AI 言语模型」:Megatron-Turing (MT-NLP)。

5300亿参数的「威震天-图灵」,微软、英伟达合力造出超大语 言模型

从公开披露的角度来看,MT-NLP 应该是现存最大的公共模型。作为两家公司 Turing NLG 17B 和 Megatron-LM 模型的继承者,MT-NLP 包含 5300 亿个参数,并在一系列广泛的自然言语义务中表现出了「无与伦比」的准确性,包括阅读理解、常识推理和自然言语推理。大规模言语模型近年来,自然言语处理 (NLP) 中基于 Transformer 的言语模型在大规模盘算、大型数据集以及用于训练这些模型的高级算法和软件的推动下发展迅速。具有大量参数、更多数据和更多训练时间的言语模型可以获得更丰富、更细致的言语理解。因此,它们可以很好地泛化为有效的零样本(zero-shot)或少样本(few-shot)学习器,在许多 NLP 义务和数据集上具有很高的准确性。NLP 领域的下游义务包括文本摘要、自动对话生成、翻译、语义搜索、代码自动生成等。当前,SOTA NLP 模型中的参数数量呈指数增长,如下图 1 所示。

5300亿参数的「威震天-图灵」,微软、英伟达合力造出超大语 言模型

图 1. SOTA NLP 模型的大小随时间变化的趋势然而,训练此类模型具有挑战性,主要有两个原因:

即使使用最大的 GPU,也不再可能在内存中拟合这些模型的参数。

如果不特别优化算法、软件和硬件堆栈,所需的大量盘算操作可能会导致不切实际的极长训练时间。

近来 AI 领域的大量创新和突破使训练 MT-NLG 变得可行。在英伟达和微软合作的一个项目中,研究者们通过将最先进的 GPU 加速训练基础设施与顶尖的分布式学习软件堆栈结合,实现了前所未有的训练效率,用数千亿的 token 构建了高质量的自然言语训练语料库,并开发了提高优化效率和稳定性的解决方案。下面我们来详细看下该研究的训练的各个方面和该方法的结果。大规模训练的基础设置由英伟达 A100 Tensor Core GPU 和 HDR InfiniBand 网络支撑的 SOTA 超级盘算集群(例如英伟达的 Selene 和微软的 Azure NDv4) 有足够的盘算能力在合理的时间范围内训练具有数万亿个参数的模型。然而,要充分发挥这些超级盘算机的潜力,需要在数千个 GPU 之间实现并行,在内存和盘算上都高效且可扩张。然而现有的并行策略(例如数据、pipeline 或 tensor-slicing)在内存和盘算效率方面存在以下权衡,无法用于训练这种规模的模型:

数据并行实现了良好的盘算效率,但它复制了模型状态并且无法利用聚合分布式内存。

tensor-slicing 需要 GPU 之间的大量通信,因此单个节点以外的盘算效率受限,使得高带宽 NVLink 不可用。

pipeline 并行可以实现跨节点高效扩张。然而,为了提高盘算效率,它需要大批量、粗粒度的并行以及完美的负载平衡,这在规模上是不可能的。

软件设计微软的 DeepSpeed 与英伟达的 Megatron-LM 合作,创建了一个高效且可扩张的 3D 并行系统,将数据、pipeline 和基于 tensor-slicing 的并行结合在了一起。具体地说,该系统使用来自 Megatron-LM 的 tensor-slicing 来扩张节点内的模型,并使用来自 DeepSpeed 的 pipeline 并行来跨节点扩张模型。例如,对于 5300 亿参数的模型,每个模型副本(replica)跨越 280 个英伟达 A100 GPU,具有节点内的 8 路 tensor-slicing 和跨节点的 35 路 pipeline 并行。然后再使用 DeepSpeed 的数据并行进一步扩张到数千个 GPU。硬件系统模型训练是在基于英伟达 DGX SuperPOD 的 Selene 超级盘算机上以混合精度完成的,该超级盘算机由 560 个 DGX A100 服务器提供支持,这些服务器以完满的胖树配置用 HDR InfiniBand 联网。每个 DGX A100 有 8 个英伟达 A100 80GB Tensor Core GPU,并通过 NVLink 和 NVSwitch 实现相互之间的全连接。微软在 Azure NDv4 云超级盘算机中使用了类似的架构。系统吞吐量研究者度量了该系统在 Selene 上的 280、350 和 420 DGX A100 服务器上,批大小为 1920 的 5300 亿参数模型的端到端吞吐量。其迭代时间分别为 60.1、50.2 和 44.4 秒,对应于每个 GPU 126、121 和 113 teraFLOP/s。数据集和模型配置研究者使用了 Transformer 解码器架构,它是一个从左到右生成的基于 Transformer 的言语模型,由 5300 亿个参数组成。层数、隐藏维度和注意力头数量分别为 105、20480 和 128 个。基于开源数据集集合 The Pile,研究者构建了训练数据集。The Pile 共 835GB,是 22 个较小数据集的集合,涵盖学术资源(例如,Arxiv、PubMed)、社区(StackExchange、Wikipedia)、代码存储库(Github)等,微软和英伟达还引入了 Common Crawl 的大量网页快照,包括新闻报道和社交媒体帖子。最终的训练集包括 15 个数据集,总共有 3390 亿个 token。研究者在训练期间根据图 2 中给出的可变采样权重将数据集混合到异构批次中,将重点放在更高质量的数据集上,在 2700 亿个 token 上训练了模型。

5300亿参数的「威震天-图灵」,微软、英伟达合力造出超大语 言模型

表 1:用于训练 MT-NLG 模型的数据集。训练结果近期言语模型方面的工作表明,强大的预训练模型通常可以在不进行微调的情况下,在众多 NLP 义务中表现出色。为了理解扩大言语模型如何增强其零样本学习或小样本学习能力,研究者评价了 MT-NLG ,并证明它在几类 NLP 义务中实现了新的 SOTA。为确保评价的全面性,研究者选择了跨越五个不同领域的八项义务:

在文本预测义务 LAMBADA 中,模型预测给定段落的最后一个词;

在阅读理解义务 RACE-h 和 BoolQ 中,模型根据给定的段落生成问题的答案;

在常识推理义务 PiQA、HellaSwag 和 Winogrande 中,每个义务都需要一定程度的常识水平,超出言语的统计模式才能解决;

对于自然言语推理,ANLI-R2 和 HANS 两个基准,针对过去模型的典型失败案例;

词义消歧义务 WiC ,从上下文评价多义词的理解。

为了增强可复现性,研究者基于开源项目 lm-evaluation-harness 设置了评价,并针对特定义务进行了适当的更改。研究者在零样本、单样本和少样本设置中以没有搜索最优值的方法评价了 MT-NLG。表 2 展示了准确率度量的结果。如果测试集是公开可用的,研究者会在测试集上进行评价,否则即报告开发集上的值。最终公开的是 LAMBADA、RACE-h 和 ANLI-R2 上的测试集和开发集上的其他义务。

5300亿参数的「威震天-图灵」,微软、英伟达合力造出超大语 言模型

表 2:MT-NLG 在 PiQA 开发集和 LAMBADA 测试集的所有设置上都实现了 SOTA(用 * 表示),并且在其他类别的类似单体模型中同样表现出色。除了基准义务的指标外,研究者还对模型输出进行了定性分析。可以观察到,即使符号被严重混淆(示例 2),该模型也可以从上下文中推断出基本的数学运算(示例 1)。虽然称不上拥有了算术能力,但该模型似乎超越了仅记忆算术的水平。

5300亿参数的「威震天-图灵」,微软、英伟达合力造出超大语 言模型

表 3:MT-NLG 在不同句法结构下的数学运算推理和自然言语推理的样本。讨论:问题与应用虽然大规模言语模型推动了言语生成技术的发展,但它们也存在偏见、有害性等问题。AI 社区的成员们也一直在积极研究、理解和消除言语这些模型中的问题。微软和英伟达表示,MT-NLG 模型从它所训练的数据中提取了刻板印象和偏见。他们正在解决这个问题,也鼓励帮助量化模型偏差的后续研究。今天,人工智能技术的进步正在超越摩尔定律的极限。新一代的 GPU 以闪电般的速度互连,不断升级算力。与此同时,AI 模型的扩张带来了更好的性能,而且似乎前景无限。MT-NLG 就是一个例子,它展示的是:当像 NVIDIA Selene 或 Microsoft Azure NDv4 这样的超级盘算机与 Megatron-LM 和 DeepSpeed 的软件创新一起用来训练大型言语 AI 模型时,可能会发生什么?微软和英伟达表示,DeepSpeed 和 Megatron-LM 的创新将助力未来更多的 AI 模型开发,并使大型 AI 模型的训练成本更低、速度更快。尽管如此,大模型的成本问题仍然是不可忽视的。像 MT-NLP、华为的盘古α、Naver 的 HyperCLOVA、智源研究院的悟道 2.0 等巨模型的搭建成本并不便宜。比如说,OpenAI 的 GPT-3 的训练数据集大小为 45 TB,足以填满 90 个 500GB 硬盘。人工智能训练成本在 2017 年至 2019 年间降低到了原有的百分之一,但这仍超过大多数初创公司在盘算方面的预算。这种不平等牺牲了小企业获得资源的机会,反而巩固了巨头原本就具备的优势。举一个极端的例子,据 CrowdStorage 统计,特斯拉自动驾驶团队的一个数据集(1.5 PB 的视频片段)在 Azure 中存储三个月的成本,就超过了 67500 美元。正如 Huggingface 联合创始人 Julien Chaumond 所说:「比起 5300 亿参数的大模型,我更感兴趣的是能让 5.3 亿人使用或研究的模型。」

5300亿参数的「威震天-图灵」,微软、英伟达合力造出超大语 言模型

参考链接:https://developer.nvidia.com/blog/using-deepspeed-and-megatron-to-train-megatron-turing-nlg-530b-the-worlds-largest-and-most-powerful-generative-language-model/https://venturebeat.com/2021/10/11/microsoft-and-nvidia-team-up-to-train-one-of-the-worlds-largest-language-models/

原创文章,作者:机器之心,如若转载,请注明出处:https://www.iaiol.com/news/5300-yi-can-shu-de-wei-zhen-tian-tu-ling-wei-ruan-ying-wei/

(0)
上一篇 2021年 10月 12日 下午2:23
下一篇 2021年 10月 12日 下午2:46

相关推荐

  • 「小破站」真顶流,CMU说话手艺研究所登陆B站:这是学术圈的新时尚?

    小破站真是出息了。当年发迹于二次元的「小破站」,俨然时代顶流了。继加拿大滑铁卢大学老师在 B 站开设《差分隐私》课程之后,现在又有国外机构来小破站开课了!😏1 月 20 日,一个名为「LTIatCMU」(卡耐基梅隆大学说话手艺研究所)的账号,悄悄在 B 站上传了 9 个视频。CMU 副老师 Graham Neubig 发推表示,这些讲座集结了说话手艺研究所(LTI)成员与客座讲师,在 YouTube 和 B 站均有资源。「我们的中国朋友也可以观看 bilibili:https://space.bilibili.c

    2021年 2月 4日
  • 申请CS博士学位前,布朗大学Jeff Huang团队这份师资、排名和奖学金统计值得参考

    这是一份申请 CS 博士学位前可以认真参考的统计资料。

    2022年 5月 9日
  • 比照进修引领弱标签进修新SOTA,浙大新研究入选ICLR Oral

    本文介绍浙江大学、威斯康星大学麦迪逊分校等机构的最新工作 PiCO,相关论文已被 ICLR 2022 录用(Oral, Top 1.59%)!偏标签进修 (Partial Label Learning, PLL) 是一个经典的弱监视进修问题,它允许每一个训练样本关联一个候选的标签荟萃,适用于许多具有标签不确定性的的现实世界数据标注场景。然而,现存的 PLL 算法与完全监视下的法子依然存在较大差距。为此,本文提出一个协同的框架解决 PLL 中的两个关键研究挑战 —— 表征进修和标签消歧。具体地,

    2022年 2月 17日
  • 现在入行CV还有前途吗?来听AI年青学者怎么说

    为了推动 AI 技能的运用创新,促进人工智能范畴的学术交流、人才培养,打造人工智能的人才交流平台与产业生态圈,中国人工智能学会联合杭州市余杭区人民政府联合发起了首届全球人工智能技能创新大赛,并得到了阿里云、OPPO 等头部科技企业的积极参与和支持。阿里云天池平台为本次大赛提供平台和算力支撑。AI年青说是大赛主办方为提升年青开发者对 AI 的认识而主办的系列运动,该运动邀请知名年青学者,探讨理论研讨与运用实践中的热点话题。4月29日,AI年青说将迎来第三期直播运动,中心为「将来五年的计算机视觉」。2012 年,Ale

    2021年 4月 28日
  • 浙大校友李旻辰获SIGGRAPH 2021最佳博士论文奖,连续四年华人学者包揽此奖项

    由于疫情的影响,盘算机图形顶级会议ACM SIGGRAPH 2021于8月9日至15日线上举行。该大会颁布了最佳博士论文奖以及盘算机图形学成就奖等奖项,其中最佳博士论文奖由UCLA博士后李旻辰摘得,这也是华人学者连续四年获得该殊荣。

    2021年 8月 10日
  • CVPR 2021 | 不需要标注了?看自监视进修框架如何助力主动驾驭

    来自主动驾驭公司轻舟智航和约翰霍普金斯大学的学者提出了一个自监视进修框架,可从未标注的激光雷达点云和配对的相机图象中从事点云疏通估量,与现有的监视办法相比,该办法具有良好的性能,当进一步从事监视微调时,模型优于 SOTA 办法。

    2021年 5月 17日
  • “智能定损”应用现状介绍

    在车险理赔行业,智能定损的概念在2017年率先提出,经历了4年的发展,深源恒际首次将图像鉴别技术通过小顺序在【客户自决】定损场景的产物落地应用,在某产险公司日均处理案件量达1000+,准确率达到85%。

    2022年 1月 11日
  • 产业实践推动科技创新,京东科技集团3篇论文当选ICASSP 2021

    ICASSP 2021将于2021年6月6日-11日在加拿大多伦多拉开序幕,凭借在语音技术领域的扎实积累和前沿创新,京东科技集团的3篇论文已经被 ICASSP 2021接收。

    2021年 8月 25日
  • Creator 面对面 | 大模型的末尾一千米路“不太平”

    自 2018 年谷歌推出 BERT 以来,语言模型就开始朝着「大模型」的标的目的演进。21 年诸如华为联合鹏城实验室 2000 亿参数的盘古、谷歌 1.6 万亿参数的 Switch Transfomer、智源研究院 1.75 万亿参数的的悟道 2.0 等相继产出。

    2022年 7月 19日
  • 冰鉴科技完成2.28亿元C2轮融资,国创中鼎领投

    上海冰鉴信息科技有限公司(以下简称冰鉴科技)近日宣布完成2.28亿元C2轮融资,该轮融资由国创中鼎领投,东方富海、曦域资本跟投。投中资本担任C2轮独家投资顾问。2020年底冰鉴科技宣布完成C1轮投资,C1和C2合称为C轮融资。本轮融资主要用于扩展研发团队,对上下游进行投资并购,以及完善公司生态建设和业务版图。冰鉴科技是一家利用人工智能手艺提供企业级效劳的高科技公司。经过近六年的发展,已成长为人工智能企业效劳畛域尤其是风控畛域的领军企业。同时,以金融行业效劳为根基,冰鉴科技不竭拓展人工智能运用边界,将领先的核心手艺转

    2021年 4月 12日

发表回复

您的电子邮箱地址不会被公开。 必填项已用 * 标注