Creator 面对面 | 大规模预训练模型的新思考:效力和泛化

自 2018 年谷歌推出 BERT(3.4 亿参数)以来,语言模型开始朝着「大」演进。国内外先后出现了参数量高达千亿甚至万亿的语言模型,比如谷歌的 T5(110 亿)、OpnAI 的 GPT-3(1,750 亿)、华为联合鹏城实验室的盘古(Pangu)(2000 亿),智源研究院的 WuDao2.0(1.75 万亿)……

对于这样的大模型,其背后支撑的是巨额的算力要求。那么对于 AI 民主化,降低模型训练门槛和壁垒,同时兼顾性能和表现,在未来模型的训练上又会有怎样的思考呢?

2022 年 1 月,循环智能的联合创始人杨植麟博士在做客机器之心「2021-2022 年度 AI 技术趋势洞察」的「模型专场」直播间时,为我们带来了主题为「大规模预训练模型的新思考:效力和泛化」的进修分享。

图片

杨植麟主要从两个方面:效力和泛化来跟我们分享预训练大模型的一些思考和初步尝试。首先杨植麟从 Scaling Law 导入,他认为 Scaling Low 在领域的研究可能会分成两部分,一部分是会存在于还没有饱和的区域,这部分区域在于提拔方法的效力,即用更少的 flops 达到一样的效果或者等价 flops 得到更好的 performance,而在不饱和区域在于进修范式进一步的提拔来泛化更多的场景应用。因此效力和泛化是比较重要的两点。

图片       Efficiency

图片

上图可以看到,小模型如 RoBERTa-Large 的训练就用了 1000 个 GPU,GPT-3 的 flops 是 RoBERTa-Large 的 50 多倍。

这造成的问题就是世界上大部分的研究者只能是去研究怎么样去提拔 fine-tuning。从整体的基数来说,可能 95% 的人是没有这个算力能够去研究预训练这个事情,然而实际的效果和性能的上限是取决于预训练的过程。因此,对于长期的领域发展来说,这是很是不利的。

图片

那么如何民主化 AI ,降低 AI 发展的门槛和壁垒,杨植麟这里介绍了一种解决方法,完全不需要预训练语言模型的高效进修框架 TLM (Task-driven Language Modeling)。

图片

TLM 相比传统模式能够很大水平上提拔 efficiency,同时对特定恣意的 performance 不会有损失。

TLM  和 PLMs 的对比

图片

TLM 只需要用到通用语料中很是小的一个子集,从很大水平上将原本普通从业者难以承受的算力要求降低到相对来说可以接受的一个水平。

图片

杨植麟提到,TLM 是通过牺牲通用性的方式去取得了一个单个 task 效力的一个极致提拔,但未来完全有可能通过与新范式结合达到效力和通用性的一致性。

结果表明,TLM 在提拔了近两个数量级的情况下,其效果仍然比基于 pre-training 的方式更好。因此说明 TLM 可以大幅度的节俭训练的代价,且同时不会产生对结果负面的影响。

图片

虽然没有用到完整的通用语料,但是随着通用语料的变大,TLM 仍然会变得更好,而且变好的幅度实际上是跟传统的预训练模型的幅度是可以进行 scale 的。

Generalization

杨植麟在这部分提到,目前有这样一个趋势,不管是通用的方法还是 task specific 的方法其实很大水平上都是在形成一个统一的生成的框架。

图片

当统一了很多恣意之后,其实就存在一个新的机会,可以基于 prompt-based 的训练和推理方式去进行 零样本(Zero-Shot)进修。

图片

杨植麟认为,大规模的多恣意的基于 prompt 的预训练的过程其实很重要的一个因素是预训练的过程中的恣意数量,因此他们第一次尝试在此范式下的预训练的恣意的数量扩展超过了 1000。

图片

结果表明,当训练恣意很是很是多的时候,模型大小在这里面仅起到一个很是次要的作用。甚至模型达到一定水平后,将不会有明显的区别。

图片

因此,当我们在训练恣意这个维度去进行 scale 的时候,我们可以极大水平节俭其他维度的量,比如大规模节俭 training flops 的数量、节俭 model size。

同时,在把所有的测试集都设定为一个新的类别的情况下,仍然可以得到很是相似的 task scaling 的现象。

图片

在最后,杨植麟也总结了目前存在的挑战和未来的工作,包括如何研究出一个通用的 TLM 以及如何真正去理解和提拔零样本进修的泛化等。

参考资料:

[1] NLP From Scratch Without Large-Scale Pretraining: A Simple and Efficient Framework. X Yao, Y Zheng, X Yang, Z Yang.

[2] ZeroPrompt: Scaling Prompt-Based Pretraining to 1,000 Tasks Improves Zero-Shot Generalization. H Xu, Y Chen, Y Du, N Shao, Y Wang, H Li, Z Yang

图片

原创文章,作者:SOTA模型,如若转载,请注明出处:https://www.iaiol.com/news/creator-mian-dui-mian-da-gui-mo-yu-xun-lian-mo-xing-de-xin/

(0)
上一篇 2022年 7月 26日 下午3:54
下一篇 2022年 7月 26日 下午5:51

相关推荐

  • WAIC 2021 | 云天励飞副总裁肖嵘:创「芯」时代 打造自进化都市智能体

    在 WAIC 2021 AI 开发者论坛上,肖嵘发表主题演讲《创「芯」时代 打造自进化都市智能体》,在演讲中,他主要介绍了自进化都市智能体,并介绍了云天励飞最新研究成果及成功案例。

    2021年 7月 19日
  • 阿里数据中台底座的12年建造实践

    文/阿里云智能计较平台事业部研究员 关涛阿里巴巴数据平台发展的四大阶段建立数据中台,一个强大的数据平台作为底座必不可少。 阿里巴巴数据平台发展的四个阶段,一定程度上其实也是阿里巴巴数据中台发展的四个阶段。这四个阶段里,你可以看到阿里巴巴对自身数据的商业价值的萃取,对原有分而治之的数据系统的聚合,对计较数据财产化和数据高效应用的新思路以及对数据平台处置过程中面临的组织变革等。阶段一:交易百花齐放,发现数据价值2009年到2012年,阿里巴巴电商交易进入爆发期,涌现出非常多有名的交易团队,比如淘宝、

    2021年 9月 29日
  • ICCV 2021 Anti-UAV Workshop & Challenge征稿啦,第二届“无人机追踪”挑战赛等你来战!

    作为计算机视觉规模的三大国际顶级会议之一,CCF A类国际会议ICCV 2021(IEEE International Conference on Computer Vision)将于2021年10月11-17日在线举办。近日,ICCV官方网站公布了Workshop Proposal的最终收录结果(http://iccv2021.thecvf.com/node/44),各式各样的Workshop和挑战赛已相继启动。其中,“全华班”AI 学者组织的The 2nd Anti-UAV W

    2021年 6月 8日
  • 无监督训练用重叠自编码器是否落伍?ML博士对比了8个自编码器

    柏林工业大学深度学习方向博士生 Tilman Krokotsch 在多项任意中对比了 8 种自编码器的性能。

    2021年 2月 17日
  • 东软睿驰与芯驰科技达成战略竞争 携手加速国产化软硬件解决方案落地

    2022年4月7日,东软睿驰与芯驰科技签署战略竞争协议,两边将围绕软件界说汽车发展趋势,在汽车智能化技术与产物范围展开深层竞争,加速推动国产化软硬件方案落地,共创智能汽车发展新生态。根据协议,两边将基于东软睿驰在汽车根本软件、智能网联、主动驾驭及电动化等范围的技术积累,芯驰科技在芯片及芯片解决方案等方面的优势,强强联合,共同探索面向下一代的高性能、高稳当和高安全性的域控制产物。东软睿驰总经理曹斌表示:“随着智能汽车产业的不断发展,软硬件生态融合将加速智能网联汽车产业创新迭代,为用户带来更安全、更美好的出

    2022年 4月 7日
  • 5月25日!联邦进修平安效率与开源生态论坛即将开幕

    当下,人工智能与大数据已经渗透到生产生活的方方面面。在保护数据平安的前提下释放数据价值成为社会发展的必然需求,隐衷较量争论联邦进修作为隐衷增强较量争论与人工智能相结合的新型技能范式,将迎来怎么样的技能方向和使用创新?可托联邦进修如何平衡平安、可用的双目标?加快培育数据要素市场,给产学研各界带来怎么样的机遇?由中国信息通信研究院云大所、清华大学智能产业研究院、深圳数据交易有限公司共同指导,FATE开源社区、开放群岛(Open Islands)开源社区、智能投研技能联盟(ITL)联合主办的“联邦进修平安效率与开源生态&

    2022年 5月 20日
  • 直播预约 | “BT + IT ”,这场论坛邀您共论生物盘算工业发展新范式

    9 月 2 日 13:00,2022 上海生物盘算论坛,精彩相约!随着 AI+ 生物学盘算应用的逐渐广泛,生物盘算已经成为人工智能发展的下一个明珠。依托上海强大的生物医药和人工智能工业基础,在世界人工智能大会组委会办公室指导下,由上海市生物医药工业促进中心、上海市人工智能行业协会、机械之心发起并联合主办,上海中青年知识份子联谊会、上海市经济和信息化系统中青年知识份子联谊会协办 2022 上海生物盘算论坛,论坛将于 9 月 2 日下午在张江科学会堂 303 举办。活动旨在衔接政府、药企、医院、钻研机构、创新企业等工业

    2022年 8月 31日
  • 引入纯度和范例注释、捕捉编程错误,MIT推出低开销量子编程言语Twist

    研究者希望 Twist 为创立更多有助于编程人员更易面对量子估计挑战的言语铺平道路。

    2022年 2月 6日
  • B站粉丝超130万,最火最直觉数学网站3b1b终于有了笔墨版!网友:点燃对数学的爱

    进修知识有更优雅的方法。如果你无法懂得高等数学、比特币、深度进修这些观念,可能有人会向你推荐 3blue1brown 的视频——这是一个专门制作可视化讲授视频的频道,其实质覆盖数学、人工智能等领域,每门课都配有直觉生动的动画演示,帮助观众加深对观念定理的懂得。它火到什么程度?除了 YouTube 上 380 万订阅者之外,3b1b 在 B 站上还有官方账号,粉丝数量超过 130 万,每个视频都是 10 万以上播放量,甚至有老师在课堂上播放该频道的视频。对于一个硬核教学 UP 主来说,这样的成

    2021年 8月 5日
  • 生物技术初创Lumen与google合作,用机械进修让螺旋藻蛋白消费力翻倍

    编辑/凯霞机械进修可以促进鉴于藻类的生物制剂消费吗?8 月 11 日,西雅图生物技术初创公司 Lumen Bioscience (以下简称「Lumen」)与google宣布合作,将利用机械进修来推进鉴于螺旋藻(一种蓝绿藻)的药物开发。Lumen 表示,该钻研由 Lumen 的信息学负责人 Caitlin Gamble 和google加速科学工程师 Drew Bryant 领导。Lumen 联合创始人 Jim Roberts 说:「google的机械进修和我们鉴于螺旋藻疗法消费的开创性结合,让我们更接近于一种完全优化的步骤,这种步骤可能对全

    2021年 9月 2日

发表回复

您的电子邮箱地址不会被公开。 必填项已用 * 标注