机器翻译(MT)领域的最终目标是建立一个通用的翻译体系,以帮助用户获取信息并更好地相互联系。但是 MT 领域需要解决实际应用中遇到的基本局限性,未来才能更好的利用。如今,大多数 MT 体系利用双语模型组,这通常需要为每一个谈话对和任务提供大量标记示例。不幸的是,这种法子对于训练数据很少的谈话(例如冰岛语、豪萨语)来说失败了。双语模型组的高度复杂性使得它无法扩大到大型实际应用程序中,因为每天有数十亿人用数百种谈话发布信息。为了建立通用翻译器,来自 Meta 的研究者认为 MT 领域应该从双语模型转向多谈话翻译(Multilingual translation)——多谈话模型即一个模型可以同时翻译许多谈话对,包括对低资材谈话对(例如,冰岛语到英语的翻译)和高资材谈话对(例如,英语到德语的翻译)的翻译。
论文地址:https://arxiv.org/pdf/2108.03265.pdf
代码地址:https://github.com/pytorch/fairseq/tree/main/examples/wmt21
由于多谈话翻译更简单、更容易扩大、并且更适合低资材谈话等特点,更容易受到研究者的青睐。但直到现在,多谈话翻译无法为高资材谈话对提供与双语模型(经过特殊训练的)一样好的结果。因此,提供跨多种谈话的高质量翻译通常涉及利用单个双语模型的组合,而对于低资材谈话来说,实现还比较困难。现在,Meta 的研究取得了突破性的进展:首次单一的多谈话模型在 14 个谈话对中有 10 个超过了经过特别训练的最好的双语模型,赢得了 WMT(一个著名的 MT 比赛)比赛。该单一多谈话模型为低资材和高资材谈话提供了最佳翻译,表明多谈话法子确实是 MT 的未来。Yann LeCun 在推特上对这一研究进行了宣传:
这项研究建立在先前研究之上,提高了低资材谈话的翻译质量。然而,当增加具有各种资材的谈话时,随着更多谈话的增加,一种模型将变得不堪重负,因为每种谈话都具有独特的谈话属性、脚本和词汇。当高资材谈话受益于大型多谈话模型时,对低资材谈话对来说有过拟合的风险。
上图为 2017-2021 年 WMT 竞赛时间表,表中展示了英语到德语翻译的机能质量随时间的进展,由结果可得多谈话模型现已超过了双语模型。其中 En-De(English to German) 被公认为最具竞争力的翻译方向。Meta 的多谈话模型是 MT 中一个激动人心的转折点,因为它表明——通过大规模数据挖掘、扩大模型容量和更高效的基础设施方面的新进展——多谈话模型有可能在高资材和低资材任务上实现更好的机能。这一技术使研究者更接近于建立一个通用翻译器。
大规模数据挖掘为了训练 WMT 2021 模型,研究者建立了两个多谈话体系:任何谈话到英语(any-to-English) 和英语到任何谈话(English-to-any),法子采用并行数据挖掘技术。
Meta 提出的模型与提交给 WMT '21 的最佳模型的机能比较。图中数据为 WMT'21 测试集的 BLEU 得分。由于任何谈话的单语数据量远远超过并行数据量,因此 Meta 利用可用的单语数据来最大化 MT 体系的机能至关重要。回译(back- translation)是单语数据最常见的技术之一,Meta 采用这一技术赢得了 2018 年和 2019 年 WMT 英语对德语新闻翻译任务。在本次研究中,Meta 增加了包含来自所有八种谈话的数亿个句子的大规模单语数据。并且过滤了可用的单语数据以减少噪声量,然后利用可用的最强多谈话模型对它们进行回译。扩大模型的能力除了通过回译扩大数据大小之外,Meta 还将模型大小从 150 亿参数扩大至 520 亿参数,以增加多谈话模型架构的容量。但是如果没有 Meta 六月推出的名为「Fully Sharded Data Parallel」的 GPU 内存节省工具,所有这些扩大工作都不可能实现。该工具使得大规模训练的速度是以往法子的 5 倍。
Fully Sharded Data Parallel(FSDP)。更高效的基础架构由于多谈话模型自身就有竞逐容量的属性,因此它们必须在共享参数和不同谈话的专门化之间取得平衡。按照比例扩大模型大小导致计算成本无法支撑。
WMT 2021 开发集的 BLEU 分数。Meta 利用了一种替代方案来利用条件式计算法子,该法子仅为每一个训练示例激活模型的一个子集。具体来说,Meta 训练了稀疏门混合大师(Sparsely Gated Mixture-of-Expert)模型,每一个 token 基于学习到的门函数馈入到 top-k 个大师前馈(FeedForward)块。他们利用 Transformer 架构,其中每一个 alternate Transformer 层中的前馈块都替换成稀疏门混合大师层,后者在编解码器中有 top-2 个门。因此,每一个输入序列仅利用所有模型参数的一个子集。
具有混合大师层的 Transformer 编码器的扩大。这些模型既可以允许在高资材方向从增加的大师模型容量中受益,也能够通过共享模型容量迁移至低资材方向。Meta 相信,他们在 WMT 2021 上取得的成绩巩固了多谈话翻译作为建立单一通用翻译体系的重要途径。他们还证明了,对于高资材和低资材谈话,单个多谈话模型可以提供较双语模型更高的翻译质量,并且更易于针对「新闻文章翻译」等特定任务进行微调。这种「单个模型适用多种谈话」的法子可以简化现实世界应用中翻译体系的开发,还有可能实现用一个模型替换数千个模型,从而为世界上的每一个人带来新的应用和服务。参考链接:https://ai.facebook.com/blog/the-first-ever-multilingual-model-to-win-wmt-beating-out-bilingual-models/
原创文章,作者:新闻助手,如若转载,请注明出处:https://www.iaiol.com/news/31251