Creator 面对面 | 大规模预训练模型的新思考:效用和泛化

自 2018 年谷歌推出 BERT(3.4 亿参数)以来,语言模型开始朝着「大」演进。国内外先后出现了参数量高达千亿甚至万亿的语言模型,比如谷歌的 T5(110 亿)、OpnAI 的 GPT-3(1,750 亿)、华为联合鹏城实验室的盘古(Pangu)(2000 亿),智源研究院的 WuDao2.0(1.75 万亿)……对于这样的大模型,其背后支撑的是巨额的算力要求。那么对于 AI 民主化,降低模型训练门槛和壁垒,同时兼顾性能和表现,在未来模型的训练上又会有怎样的思考呢?

2022 年 1 月,循环智能的联合创始人杨植麟博士在做客机器之心「2021-2022 年度 AI 技术趋势洞察」的「模型专场」直播间时,为我们带来了主题为「大规模预训练模型的新思考:效用和泛化」的进修分享。

Creator 面对面 | 大规模预训练模型的新思考:效用和泛化

杨植麟主要从两个方面:效用和泛化来跟我们分享预训练大模型的一些思考和初步尝试。首先杨植麟从 Scaling Law 导入,他认为 Scaling Low 在领域的研究可能会分成两部分,一部分是会存在于还没有饱和的区域,这部分区域在于提高方法的效用,即用更少的 flops 达到一样的效果或者等价 flops 得到更好的 performance,而在不饱和区域在于进修范式进一步的提高来泛化更多的场景应用。因此效用和泛化是比较重要的两点。

Creator 面对面 | 大规模预训练模型的新思考:效用和泛化       Efficiency

Creator 面对面 | 大规模预训练模型的新思考:效用和泛化

上图可以看到,小模型如 RoBERTa-Large 的训练就用了 1000 个 GPU,GPT-3 的 flops 是 RoBERTa-Large 的 50 多倍。

这造成的问题就是世界上大部分的研究者只能是去研究怎么样去提高 fine-tuning。从整体的基数来说,可能 95% 的人是没有这个算力能够去研究预训练这个事情,然而实际的效果和性能的上限是取决于预训练的过程。因此,对于长期的领域发展来说,这是很是不利的。

Creator 面对面 | 大规模预训练模型的新思考:效用和泛化

那么如何民主化 AI ,降低 AI 发展的门槛和壁垒,杨植麟这里介绍了一种解决方法,完全不需要预训练语言模型的高效进修框架 TLM (Task-driven Language Modeling)。

Creator 面对面 | 大规模预训练模型的新思考:效用和泛化

TLM 相比传统模式能够很大水平上提高 efficiency,同时对特定恣意的 performance 不会有损失。

TLM  和 PLMs 的对比

Creator 面对面 | 大规模预训练模型的新思考:效用和泛化

TLM 只需要用到通用语料中很是小的一个子集,从很大水平上将原本普通从业者难以承受的算力要求降低到相对来说可以接受的一个水平。

Creator 面对面 | 大规模预训练模型的新思考:效用和泛化

杨植麟提到,TLM 是通过牺牲通用性的方式去取得了一个单个 task 效用的一个极致提高,但未来完全有可能通过与新范式结合达到效用和通用性的一致性。

结果表明,TLM 在提高了近两个数量级的情况下,其效果仍然比基于 pre-training 的方式更好。因此说明 TLM 可以大幅度的浪费训练的代价,且同时不会产生对结果负面的影响。

Creator 面对面 | 大规模预训练模型的新思考:效用和泛化

虽然没有用到完整的通用语料,但是随着通用语料的变大,TLM 仍然会变得更好,而且变好的幅度实际上是跟传统的预训练模型的幅度是可以进行 scale 的。

Generalization

杨植麟在这部分提到,目前有这样一个趋势,不管是通用的方法还是 task specific 的方法其实很大水平上都是在形成一个统一的生成的框架。

Creator 面对面 | 大规模预训练模型的新思考:效用和泛化

当统一了很多恣意之后,其实就存在一个新的机会,可以基于 prompt-based 的训练和推理方式去进行 零样本(Zero-Shot)进修。

Creator 面对面 | 大规模预训练模型的新思考:效用和泛化

杨植麟认为,大规模的多恣意的基于 prompt 的预训练的过程其实很重要的一个因素是预训练的过程中的恣意数量,因此他们第一次尝试在此范式下的预训练的恣意的数量扩展超过了 1000。

Creator 面对面 | 大规模预训练模型的新思考:效用和泛化

结果表明,当训练恣意很是很是多的时候,模型大小在这里面仅起到一个很是次要的作用。甚至模型达到一定水平后,将不会有明显的区别。

Creator 面对面 | 大规模预训练模型的新思考:效用和泛化

因此,当我们在训练恣意这个维度去进行 scale 的时候,我们可以极大水平浪费其他维度的量,比如大规模浪费 training flops 的数量、浪费 model size。

同时,在把所有的测试集都设定为一个新的类别的情况下,仍然可以得到很是相似的 task scaling 的现象。

Creator 面对面 | 大规模预训练模型的新思考:效用和泛化

在最后,杨植麟也总结了目前存在的挑战和未来的工作,包括如何研究出一个通用的 TLM 以及如何真正去理解和提高零样本进修的泛化等。

参考资料:

[1] NLP From Scratch Without Large-Scale Pretraining: A Simple and Efficient Framework. X Yao, Y Zheng, X Yang, Z Yang.

[2] ZeroPrompt: Scaling Prompt-Based Pretraining to 1,000 Tasks Improves Zero-Shot Generalization. H Xu, Y Chen, Y Du, N Shao, Y Wang, H Li, Z Yang

Creator 面对面 | 大规模预训练模型的新思考:效用和泛化

给TA打赏
共{{data.count}}人
人已打赏
AI

AI芯片业的挑战亦是企业智能化转型的降本增效时机

2022-7-26 15:54:00

AI

魏牌拿铁DHT-PHEV售价22.9万元起,最大分析续航可超1000km

2022-7-26 17:51:00

0 条回复 A文章作者 M管理员
    暂无讨论,说说你的看法吧
个人中心
今日签到
搜索