Creator 面对面 | 大模型的末尾一千米路“不太平”

自 2018 年谷歌推出 BERT 以来,语言模型就开始朝着「大模型」的标的目的演进。21 年诸如华为联合鹏城实验室 2000 亿参数的盘古、谷歌 1.6 万亿参数的 Switch Transfomer、智源研究院 1.75 万亿参数的的悟道 2.0 等相继产出。

在即将到来的一年里,在大规模预训练模型的跨界之路上,又将出现哪些变数?

「基础模型(Foundation Model)」是否将成为下一个 AI 范式?

「基础模型(Foundation Model)」的出现是否意味着距离实现「通用模型」只剩末尾一千米的路程的?

  针对细分运用规模,例如生化规模等,搞「专用模型」是否还有现在价值?「专用模型」又有哪些不一样的玩法?

2022 年 1 月,ICCV 2021 马尔奖(最佳论文奖)Swin Transformer 作者、微软亚洲研究院(MSRA)视觉计算组的主任研究员胡瀚博士,循环智能资深算法总监陈虞君,Autodesk AI Lab 研究科学家、Daily arXiv Radiostation 主持人楚航做客机器之心「2021-2022 年度 AI 技术趋势洞察」的「模型专场」直播间,共同探讨了通用(大)模型的末尾一千米」这一主题。

图片

模型架构当前发展情况

在 2021 年模型架构方面的工作中,最让您印象深刻的是哪个?为什么?

首先是胡瀚博士的回答,他提到他所从事的计算机视觉规模 2021 年的主旋律是 Transformer,但就更本质的影响而言,他会选择 Open AI 的 CLIP 和 DALL·E。他觉得,过去 10 年,视觉规模的研究员都主要关注表征进修,希望预训练一个很强的表征,然后再用这个表征去某个具体恣意上做微调(fine-tuning),而 CLIP 和 DALL·E 打开了一个新的维度,让预训练不仅可以进修表征还可以连接几乎所有语义,这对视觉规模将是一个很本质的变化。另外他还提到他在微软亚研的同事提出的 BEiT,这一模型有望将掩码图像建模的自监视预训练方法推向主流,将规模的研究重点从以 MOCO 为代表的对比进修方法,向和 NLP 更类似的预测建模方法靠齐。另外,他觉得稀疏 MoE 大模型方面的进展也很鼓舞人心,这一和人脑运行机制更像的稀疏模型正在变得真正 Work 起来。

之后,陈虞君博士谈到自己比力关注工业落地,像 Google 的 FLAN  和 Hugging Face 的 T0 这种在 NLP 规模利用更多的有监视进修的数据去做 zero shot 对比理论的恣意去做 zero shot 的这种形式异常有意思。因为相比于大部分预训练的模型,BERT 和 GPT 都是使用通用的文本做预训练,然后使用 mlm loss 作为训练目标。但对理论的恣意,依然需要进行 fine tune,这个 pipeline 会异常消耗算力和存储资源。此外,他还提到 Open AI 和 Github 发布的 Copilot, 印象深刻点和有趣点在于这个模型可以异常显著的提升大家的编程效率,并且这个标的目的也是异常有意思和值得思考的,大多时候人们会考虑如何用 AI 去替代人,但如何用 AI 去提升人的能力,这种增强智能在现在可能是一个很好的发展标的目的。

末尾,楚航博士同样觉得 Open AI 的一系列工作是最让人印象深刻的,比如 CLIP、DALL·E 和 GLIDE,他觉得这种把语义、多模态和图像这块的融合是异常有意义的,这种多模态的模型对现在和将来都会起到一个异常大的 enabling 的作用。另外他还提到比力感兴趣和印象深刻的是 Google 提出的 Pathways,这更像是一个对之后模型架构的一个愿望清单,包括多感知的、多恣意的、稀疏性的,这也是他比力认可的一个大的标的目的。

通用(大)模型的末尾一千米

用大模型还是小模型?为什么?大模型是否存在一些局限性?为什么在理论工作中一些场景没考虑用过?

陈虞君博士首先承认大模型在理论使用的时候的确存在局限性,预训练的训练目标和理论的落地恣意之间存在 gap,在工业理论生产的时候,就依然会陷入先进行 pretrain 再进行 fine tune 的这样一个循环,如果模型越来越大,那么它的 fine tune 的速度就会变慢且需要异常大的资源,如果不进行 fine tune,它就可能无法直接处理下游的恣意。

楚航博士则根据自己 Autodesk 的经验分享道,当有新的大模型出现,自己都会第一时间去测试并进行使用,但他发现他们少有在具体运用中使用到大模型,并总结了两点原因:第一,他们更偏向小巧精快的模型,尤其对于 Autodesk 的一些主要产品包括软件产品,并且在传统模式上可能需要在端上部署,虽然可以云端化,但部署成本过高。第二,目前 AI 运用还处于一个早期的摸索阶段,现阶段的急迫性在于从无到有,把业务跑通比把业务跑顺更为重要。

最近有些工作表明卷积的方法在采用适当的模型整体架构和数据增强技术后效果也能同样的好,例如 Meta 的 ConvNeXt,您对现在卷积和 Transformer 在视觉规模的现在有什么看法?除了 NLP 和视觉,您怎么看其他规模运用 Transformer 模型架构的前景?例如科学、因果推理等等?

胡瀚博士回答道:卷积和 Transformer 都挺好,关键是要满足能被 scale up 这个性质,能够通过扩大模型容量持续地给各种恣意带来帮助。 Transformer 这方面的能力已经被证明,NLP 规模大模型例子很多了,在 CV 规模,他们组发布的 30 亿参数的 Swin V2 模型就是一个 Transformer 可以扩展容量的例子。 CNN 目前还没有工作去证明它的可扩展性,当然这不能说明卷积网络就不可以。当然,现在大家普遍还是更看好 Transformer 一点,但这倒不是一个谁就一定更好的科学问题,而更是一个生态问题。整个学界和产业界的生态会导致前进的标的目的会有所偏向,目前看来,Transformer  还是更有可能一些,刚才提到的可扩展性是一方面的原因,Transformer 在扩展容量方面有先发优势,另一个原因是它更通用一点,因为 CNN 主要适用网格化的数据,而 Transformer 能适应更广泛的数据特点。

基于通用性的优点,他觉得 Transformer 除了在 NLP 和 CV 里的运用外,也有机会运用于 AI for science 和因果推断方面。关于这两个规模,他觉得 Transformer 运用于 AI for science 是更直接和容易的,并且已经有了一些理论工作;对因果推断来说,目前还需要克服一些困难,因为目前的进修范式主要是在建模相关性而不是因果性。当然他也简要展开讲了讲最近他对因果推断的思考,他觉得也许和大家想的不一样,因果性并不一定是迈向通用人工智能过程中的重要问题,因为其实直到最近几百年,普通人才能理解稍微深刻一点的逻辑,“白马非马”这一自然语言带来的悖论很长一段时间大家都搞不清楚,但也不妨碍大家活得好好的。他提到也许通用智能的本质还在于相关性本身,人之所以能适应环境,在于适应和相关性自洽,而不是掌握了因果性。

NLP 大模型已经到了万亿参数规模,而 CV 大模型目前才到几十亿的规模,是什么原因,CV 大模型和NLP 大模型有什么异同之处,您对于 CV 大模型的现在有什么观点?

胡瀚博士提到,首先 NLP 的起步更早,过去的两三年里大家都在想如何去把模型变大,但现在 CV 的架构或是进修方法都逐渐与 NLP 相似,因此在现在达到更大的规模是比力容易的。之所以目前没有达到,他觉得原因之一是 CV 规模的一些基础还没有准备好。例如 CV 规模的数据量还不是很支持训练很大的模型,谷歌训练 18 亿参数的视觉大模型就要依赖 30 亿的标注数据,而他们组的工作 Swin V2 通过自监视进修,将对数据量的需求降低了 40 倍,但还是用了近 7000 万标注数据才能做到那么好的效果。

另一个问题是,更大规模的 CV 大模型,例如达到上万亿参数规模的 CV 大模型,是否真正能对运用产生,如果不能带来全新的运用或者赋能从 0 到 1 的事情,而仅仅是某些恣意里 80% 到 85% 的提升可能意义就不是很大了,但如果能催生出一个全新的运用或者全新的能力,那将会更有价值。当然大模型有望实现的极限精度提升对于无人驾驶这样对精度要求异常高的规模也许是一个好的技术路线,如果大模型能真正解决达到小数点后 4 个 9 的识别精度,那无人驾驶也许就真的就实现了。

顺着大模型的路线走下去,是否有可能走完通用模型的末尾一千米?专用模型是否还有存在的必要?

陈虞君博士觉得通用模型距离落地的末尾一千米是将预训练和它理论运用的 gap 弥补起来。通过自己的一些实验,其实也验证了在预训练的阶段加入大量有监视的进修的文本,然后在下游的恣意理论运用的时候,其实有很多时候是能够达到比力好的效果的,甚至有一些会媲美利用监视进修得到的结果。顺着大模型目前这个路线,如果模型的容量足够大,就有可能预训练的恣意就可以包含了更广泛的下游恣意。因此,从这个角度看,他觉得走完通用模型的末尾一千米是异常有希望的。

对于专用模型是否还有存在的必要,他觉得对于某些理论业务可能与大模型存在异常大的差异,这时专有模型就可以体现出它的价值。尤其是在新规模,起初数据较少,那么用少量的标注数据得到在新规模的合适的模型。并且这是一个迭代的过程,先通过专用模型处理新规模的问题,然后将新规模的数据收集起来再喂给大模型。

胡瀚博士则补充到,大模型的“大”这个路线很可能是对的,通过最近几年的观察,大家发现这个“大”确实能够 不断地提升模型性能,这些通过提升模型容量带来的提升往往比改进模型设计本身更显著,也更可持续。这个性质是异常令人振奋的。而在具体“大”到什么程度方面,我们现在大概到了万亿的参数规模,如果我们对应人脑的 100 万亿参数也就是连接的话,目前还有一些差距,但看起来很快就能达到。但即使参数到达了人脑的规模,进修方法上还需要突破,所以我们讲“末尾一千米”,也许还很遥远,所谓“行百里者半九十”也许末尾一千米所花的时间远超我们想象,还有很多基本问题和很困难的问题需要去探索和解决。

模型架构发展趋势现在展望

您觉得在通用模型规模,下面进一步发展,存在的主要瓶颈是什么?以及下一年在通用模型方面,可能会有较大进展与突破的标的目的是什么?有没有您觉得比力值得关注和跟踪的团队或者项目?

陈虞君博士个人比力关注 NLP 的通用模型,他觉得该模型的瓶颈之一是资源,该模型训练的成本异常高;除此之外还有数据的成本,通用模型在落地的时候往往面对海量的下游恣意,它往往只预测见过的恣意,因此面对海量的理论恣意如果每一个恣意都需要去 fine tune 和做标注,这时候的数据成本将异常的昂贵。那么如何利用尽可能少的数据量获得最优的模型,将是一个异常大的瓶颈,也是现在值得研究的一个标的目的。另外,大模型的复杂描述方式如何在特定规模上对特定恣意有一个理想的效果也是一大瓶颈。末尾陈虞君博士谈到自己比力关注例如 Google、微软、百度和 Open AI 这类的团队,他们会致力于把大模型运用到理论的问题上。

楚航博士则将通用模型存在的瓶颈分为三类:第一类是运用瓶颈,思考大模型的用处和如何具体的去赋能;第二类是数据上的瓶颈,大量的数据难找,高质量的数据更加难找 ,针对特定场景的运用数据也是异常的昂贵;第三类是算法上的瓶颈,在比力 noisy 的数据上如何高效的进修是一个需要突破的地方。对于现在一年的可能会有较大进展与突破的标的目的,他提到了自监视和半监视的方面研究,此外他还比力期待一个“一统江湖”的多模态的终极数据库。另外关于值得跟踪和关注的项目,他提到了 Open AI 、Google 和 Facebook 等。

末尾,胡瀚博士补充了一点在 CV 标的目的上的主要瓶颈,他觉得目前 CV 较 NLP 来说还是落后较多的,还没有把不同的 CV 恣意统一起来。此外,他还推荐关注神经科学方面的进展。

图片

原创文章,作者:SOTA模型,如若转载,请注明出处:https://www.iaiol.com/news/creator-mian-dui-mian-da-mo-xing-de-mo-wei-yi-qian-mi-lu-bu/

(0)
上一篇 2022年 7月 19日 下午2:32
下一篇 2022年 7月 19日 下午5:43

相关推荐

发表回复

您的电子邮箱地址不会被公开。 必填项已用 * 标注