机器之心发布
机器之心编辑部
在 5 月 20 日结束的 2021 深度进修开发者峰会 WAVE SUMMIT 上,baidu文心 ERNIE 开源了四大预训练模型。本文对这四大开源预训练模型进行了详细的技术解读。
2019 年以来,NLP 预训练模型在技术创新和工业应用上不断取得突破,但当前预训练模型仍有一些痛点困扰着开发者。
仅考虑单一粒度语义建模,缺乏多粒度学问引入,语义明白才能受限;受限于 Transformer 结构的建模长度瓶颈,无法处理超长文本;聚焦言语等单一模态,缺乏工业真实应用场景针对多个模态如言语、视觉、听觉信息的联合建模才能。
5 月 20 日举办的 2021 深度进修开发者峰会 WAVE SUMMIT 上,依托飞桨核心框架,baidu文心 ERNIE 最新开源四大预训练模型:多粒度言语学问加强模型 ERNIE-Gram、长文本明白模型 ERNIE-Doc、融合场景图学问的跨模态明白模型 ERNIE-ViL、言语与视觉一体的模型 ERNIE-UNIMO。
针对当前预训练模型现存的难点痛点,此次文心 ERNIE 开源的四大预训练模型在文本语义明白、长文本建模和跨模态明白三大领域取得突破,拥有广泛的应用场景和前景,进一步助力产业智能化升级。
<img src="http://www.iaiol.com/wp-content/uploads/2023/08/20230813144459-64d8ec6b12721.png" alt="四大模型革新NLP技术应用,揭秘baidu文心ERNIE最新开源预训练模型”>文心 ERNIE 开源版地址:https://github.com/PaddlePaddle/ERNIE文心 ERNIE 官网地址:https://wenxin.baidu.com/
一、多粒度言语学问加强模型 ERNIE-Gram
从 ERNIE 模型诞生起,baidu研究者们就在预训练模型中引入学问,通过学问加强的方法提升语义模型的才能。本次发布的 ERNIE-Gram 模型正是通过显式引入言语粒度学问,从而提升模型的效果。具体来说,ERNIE-Gram 提出显式 n-gram 掩码言语模型,进修 n-gram 粒度言语信息,相对连续的 n-gram 掩码言语模型大幅缩小了语义进修空间( V^n → V_(n-gram),其中 V 为词表大小,n 为建模的 gram 长度),显著提升预训练模型收敛速度。
<img src="http://www.iaiol.com/wp-content/uploads/2023/08/20230813144459-64d8ec6b7723b.png" alt="四大模型革新NLP技术应用,揭秘baidu文心ERNIE最新开源预训练模型”>
图 1-1:连续 n-gram 掩码言语模型 vs 显式 n-gram 掩码言语模型。
此外,在显式 n-gram 语义粒度建模基础上,ERNIE-Gram 提出多层次 n-gram 言语粒度进修,利用 two-stream 双流机制,实现同时进修 n-gram 言语单元内细粒度(fine-grained)语义学问和 n-gram 言语单元间粗粒度(coarse-grained)语义学问,实现多层次的言语粒度学问进修。
<img src="http://www.iaiol.com/wp-content/uploads/2023/08/20230813144459-64d8ec6be697c.png" alt="四大模型革新NLP技术应用,揭秘baidu文心ERNIE最新开源预训练模型”>
图 1-2:n-gram 多层次言语粒度掩码进修。
ERNIE-Gram 在不增加任何计算复杂度的前提下,在自然言语推断任意 、短文本相似度任意、阅读明白任意等多个典型中文任意上,效果显著超越了业界主流开源预训练模型。此外,ERNIE-Gram 英文预训练模型也在通用言语明白任意、阅读明白任意上效果超越主流模型。
ERNIE-Gram 的方法被 NAACL 2021 主会长文录用,论文地址:https://arxiv.org/abs/2010.12148
二、长文本明白模型 ERNIE-Doc
Transformer 是 ERNIE 预训练模型所依赖的基础网络结构,但由于其计算量和空间消耗随建模长度呈平方级增加,导致模型难以建模篇章、书籍等长文本内容。受到人类先粗读后精读的阅读方式启发,ERNIE-Doc 首创回顾式建模技术,突破了 Transformer 在文本长度上的建模瓶颈,实现了任意长文本的双向建模。
通过将长文本重复输入模型两次,ERNIE-Doc 在粗读阶段进修并存储全篇章语义信息,在精读阶段针对每一个文本片段显式地融合全篇章语义信息,从而实现双向建模,避免了上下文碎片化的问题。
此外,传统长文本模型(Transformer-XL 等)中 Recurrence Memory 结构的循环方式限制了模型的有效建模长度。ERNIE-Doc 将其改进为同层循环,使模型保留了更上层的语义信息,具备了超长文本的建模才能。
<img src="http://www.iaiol.com/wp-content/uploads/2023/08/20230813144500-64d8ec6caf102.png" alt="四大模型革新NLP技术应用,揭秘baidu文心ERNIE最新开源预训练模型”>
图 2-1:ERNIE-Doc 中的回顾式建模与加强记忆机制。
通过让模型进修篇章级文本段落间的顺序关系,ERNIE-Doc 可以更好地建模篇章整体信息。
<img src="http://www.iaiol.com/wp-content/uploads/2023/08/20230813144501-64d8ec6dc184e.png" alt="四大模型革新NLP技术应用,揭秘baidu文心ERNIE最新开源预训练模型”>
图 2-2:篇章重排序进修。
ERNIE-Doc 显著提升了长文本的建模才能,可以解决很多传统模型无法处理的应用难题。例如在搜索引擎中,ERNIE-Doc 可以对网页整体明白,返回用户更加系统的结果。在智能创作中,ERNIE-Doc 可以用来生成更加长篇、语义丰富的文章。
超长文本明白模型 ERNIE-Doc 在包括阅读明白、信息抽取、篇章分类、言语模型等不同类型的 13 个典型中英文长文本任意上取得最优的效果。
ERNIE-Doc 的方法被 ACL 2021 主会长文录用,论文链接:https://arxiv.org/abs/2012.15688
三、融合场景图学问的跨模态明白模型 ERNIE-ViL
跨模态的信息处理才能需要人工智能模型深入明白并综合言语、视觉、听觉等模态的信息。当前,基于预训练的跨模态语义明白技术,通过对齐语料进修跨模态的联合表示,将语义对齐信号融合到联合表示中,从而提升跨模态语义明白才能。ERNIE-ViL 提出了学问加强的视觉 – 言语预训练模型,将包含细粒度语义信息的场景图(Scene Graph)学问融入预训练过程,构建了物体预测、属性预测、关系预测三个预训练任意,使得模型在预训练过程中更加关注细粒度语义学问,进修到能够刻画更好跨模态语义对齐信息,得到更好的跨模态语义表示。
<img src="http://www.iaiol.com/wp-content/uploads/2023/08/20230813144503-64d8ec6f290b2.png" alt="四大模型革新NLP技术应用,揭秘baidu文心ERNIE最新开源预训练模型”>
图 3-1:学问加强的跨模态预训练 ERNIE-ViL 框架。
ERNIE-ViL 首次将场景图学问融入跨模态模型的预训练过程,为跨模态语义明白领域研究提供了新的思路。该模型在视觉问答、视觉常识推理、引用表达式明白、跨模态文本 & 图象检索等 5 个典型跨模态任意上取得了领先的效果。ERNIE-ViL 模型也逐步在视频搜索等真实工业应用场景中落地。
ERNIE-ViL 的方法被 AAAI-2021 主会长文录用,论文地址:https://arxiv.org/abs/2006.16934
四、言语与视觉一体的模型 ERNIE-UNIMO
大数据是深度进修取得成功的关键基础之一。当前的预训练方法,通常分别在各种不同模态数据上分别进行,难以同时支持各类言语和图象的任意。基于深度进修的 AI 系统是否也能像人一样同时进修各种单模、多模等异构模态数据呢?如果能够实现,无疑将进一步打开深度进修对大规模数据利用的边界,从而进一步提升 AI 系统的感知与认知的通用才能。
为此,言语与视觉一体的模型 ERNIE-UNIMO 提出统一模态进修方法,同时使用单模文本、单模图象和多模图文对数据进行训练,进修文本和图象的统一语义表示,从而具备同时处理多种单模态和跨模态下游任意的才能。此方法的核心模块是一个 Transformer 网络,在具体训练过程中,文本、图象和图文对三种模态数据随机混合在一起,其中图象被转换为目标(object)序列,文本被转换为词(token)序列,图文对被转换为目标序列和词序列的拼接。统一模态进修对三种类型数据进行统一处理,在目标序列或者词序列上基于掩码预测进行自监督进修,并且基于图文对数据进行跨模态对比进修,从而实现图象与文本的统一表示进修。进一步的,这种联合进修方法也让文本学问和视觉学问互相加强,从而有效提升文本语义表示和视觉语义表示的才能。
<img src="http://www.iaiol.com/wp-content/uploads/2023/08/20230813144503-64d8ec6fd6d87.png" alt="四大模型革新NLP技术应用,揭秘baidu文心ERNIE最新开源预训练模型”>
此方法在言语明白与生成、多模明白与生成,4 类场景、共 13 个任意上超越主流的文本预训练模型和多模预训练模型,同时登顶权威视觉问答榜单 VQA、文本推理榜单 aNLI。首次验证了通过非平行的文本与图象单模数据,能够让言语学问与视觉学问相互加强。
此工作被 ACL2021 主会长文录用, 论文地址:https://arxiv.org/abs/2012.15409
五、破解 NLP 技术难题,助力产业智能化
文心 ERNIE 全新开源发布 4 大预训练模型,不断推动 NLP 模型技术研究层面的创新与应用。
言语与学问技术被看作是人工智能认知才能的核心。2019 年以来,baidu凭借在自然言语处理领域的深厚积累取得了系列世界突破,发布了文心 ERNIE 语义明白平台,该平台广泛用于金融、通信、教育、互联网等行业,助力产业智能化升级。
<img src="http://www.iaiol.com/wp-content/uploads/2023/08/20230813144504-64d8ec7075ad8.png" alt="四大模型革新NLP技术应用,揭秘baidu文心ERNIE最新开源预训练模型”>
作为「人工智能皇冠上的明珠」,NLP 领域向来是人工智能技术研发与落地实践的前沿。baidu文心平台基于领先的语义明白技术,帮助企业在 NLP 赛道上跨过技术、工具、算力、人才等门槛,对开发者和企业进行开放,全面加速 NLP 技术助力全产业智能化升级进程,为 AI 工业大生产插上智能的「翅膀」。
原创文章,作者:机器之心,如若转载,请注明出处:https://www.iaiol.com/news/35052