ACL 2021 | 腾讯AI Lab、港中文杰出论文:用单语影象实现高功能NMT

在 ACL 2021 的一篇杰出论文中,研讨者提出了一种基于单语数据的模型,功能却优于运用双语 TM 的「TM-augmented NMT」基线格式。自然语言处理(NLP)领域顶级会议 ACL 2021 于 8 月 2 日至 5 日在线上举行。据官方数据, 本届 ACL 共收到 3350 篇论文投稿,其中主会论文录用率为 21.3%。腾讯 AI Lab 共入选 25 篇论文(含 9 篇 findings)。在不久之前公布的获奖论文中,腾讯 AI Lab 与香港中文大学合作完成的《Neural Machine Tra

在 ACL 2021 的一篇杰出论文中,研讨者提出了一种基于单语数据的模型,功能却优于运用双语 TM 的「TM-augmented NMT」基线格式。自然语言处理(NLP)领域顶级会议 ACL 2021 于 8 月 2 日至 5 日在线上举行。据官方数据, 本届 ACL 共收到 3350 篇论文投稿,其中主会论文录用率为 21.3%。腾讯 AI Lab 共入选 25 篇论文(含 9 篇 findings)。在不久之前公布的获奖论文中,腾讯 AI Lab 与香港中文大学合作完成的《Neural Machine Translation with Monolingual Translation Memory》取得杰出论文。本文作者也受邀参与机器之心举办的 ACL 2021 论文分享会,感兴趣的同学可以点击阅读原文查看回顾视频。下面我们来看一下这篇论文的具体内容。

ACL 2021 | 腾讯AI Lab、港中文杰出论文:用单语影象实现高功能NMT

论文地址:https://arxiv.org/abs/2105.11269先前的一些工作已经证明翻译影象库(TM)可以提高神经机器翻译 (NMT) 的功能。与运用双语语料库作为 TM 并采用源端相似性搜索进行影象检索的现有工作相比,该研讨提出了一种新框架,该框架运用单语影象并以跨语言方式执行可学习的影象检索。该框架具有一些独特的优势:

首先,跨语言影象检索器允许大量的单语数据作为 TM;

其次,影象检索器和 NMT 模型可以联合优化以达到最终的翻译目的。

实验表明,该研讨提出的格式取得了实质性的改进。值得注意的是,即使不运用额外单语数据,这种格式也要优于运用双语TM的 「TM-augmented NMT」基线格式。由于能够利用单语数据,该研讨还证明了所提模型在低资源和领域适应场景中的有效性。格式该研讨首先将翻译任务转化为两步过程:检索和生成,并在论文中描述了跨语言影象检索模型和影象增强型(memory-augmented)翻译模型的模型设计。最后,该论文展示了如何运用标准最大似然训练联合优化这两个组件,并通过穿插对齐预训练解决了冷启动(cold-start)问题。

ACL 2021 | 腾讯AI Lab、港中文杰出论文:用单语影象实现高功能NMT

该格式的整体框架如图 1 所示,其中 TM 是目的语言ACL 2021 | 腾讯AI Lab、港中文杰出论文:用单语影象实现高功能NMT中句子的集合。给定源语言中的输入 x,检索模型首先会根据相关函数ACL 2021 | 腾讯AI Lab、港中文杰出论文:用单语影象实现高功能NMT,选择一些来自 Z 的可能有用的句子ACL 2021 | 腾讯AI Lab、港中文杰出论文:用单语影象实现高功能NMT,其中ACL 2021 | 腾讯AI Lab、港中文杰出论文:用单语影象实现高功能NMT。然后,翻译模型以检索到的集合ACL 2021 | 腾讯AI Lab、港中文杰出论文:用单语影象实现高功能NMT和原始输入 x 为条件,运用概率模型ACL 2021 | 腾讯AI Lab、港中文杰出论文:用单语影象实现高功能NMT来生成输出 y。值得注意的是,相关性分数ACL 2021 | 腾讯AI Lab、港中文杰出论文:用单语影象实现高功能NMT也是翻译模型输入的一部分,它能够鼓励翻译模型更多地关注更相关的句子。在训练期间,该研讨借助翻译参考的最大似然改进了翻译模型和检索模型。检索模型检索模型负责从大型单语 TM 中为源语句选出最相关的语句。这可能涉及测量源语句和数百万个候选目的语句之间的相关性分数,带来了严重的计算挑战。为了解决这个问题,该研讨运用一个简单的双编码器框架(Bromley 等, 1993)来实现检索模型,这样最相关句子选择可以利用最大内积搜索实现(MIPS, Maximum Inner Product Search)。借助高功能数据结构和搜索算法(例如 Shrivastava 和 Li,2014;Malkov 和 Yashunin,2018),可以高效地进行检索。具体来说,该研讨将源语句 x 和候选语句 z 之间的相关性分数 f(x, z) 定义为它们的密集向量表征的点积:

ACL 2021 | 腾讯AI Lab、港中文杰出论文:用单语影象实现高功能NMT

翻译模型给定一个源语句 x、相关 TM 的小型集合ACL 2021 | 腾讯AI Lab、港中文杰出论文:用单语影象实现高功能NMT、相关性分数ACL 2021 | 腾讯AI Lab、港中文杰出论文:用单语影象实现高功能NMT,翻译模型会定义一个如下形式的条件概率ACL 2021 | 腾讯AI Lab、港中文杰出论文:用单语影象实现高功能NMT该翻译模型建立在标准的编码器 – 解码器 NMT 模型上:(源)编码器将源语句 x 转换为密集向量表征,解码器以自回归方式生成输出序列 y。在每一个时间步(time step)t,解码器都会处理先前生成的序列ACL 2021 | 腾讯AI Lab、港中文杰出论文:用单语影象实现高功能NMT和源编码器的输出,生成隐藏状态 h_t。然后隐藏状态 h_t 通过线性投影转换为 next-token 概率,接着会有一个 softmax 函数操作,即ACL 2021 | 腾讯AI Lab、港中文杰出论文:用单语影象实现高功能NMTACL 2021 | 腾讯AI Lab、港中文杰出论文:用单语影象实现高功能NMT为了容纳额外的影象输入,该研讨运用影象编码器扩展了标准的编码器 – 解码器 NMT 框架,并允许运用从解码器到影象编码器的穿插注意力机制。具体来说,影象编码器对每个 TM 语句 z_i 单独进行编码,从而产生一组上下文 token 嵌入ACL 2021 | 腾讯AI Lab、港中文杰出论文:用单语影象实现高功能NMT,其中 L_i 是 token 序列 z_i 的长度。研讨者计算了一切 TM 语句的穿插注意力:

ACL 2021 | 腾讯AI Lab、港中文杰出论文:用单语影象实现高功能NMT

为了使从翻译输出到检索模型的梯度流有效,该研讨将注意力分数与相关性分数进行了偏置处理,重写了等式(1)如下所示:

ACL 2021 | 腾讯AI Lab、港中文杰出论文:用单语影象实现高功能NMT

训练该研讨在负对数似然损失函数ACL 2021 | 腾讯AI Lab、港中文杰出论文:用单语影象实现高功能NMT中运用随机梯度下降来优化模型参数 θ 和 φ,其中ACL 2021 | 腾讯AI Lab、港中文杰出论文:用单语影象实现高功能NMT指参考翻译。 然而,如果检索模型从随机初始化开始,那么一切 top TM 语句 z_i 可能都与 x 无关(或无用)。这导致检索模型无法接收有意义的梯度并进行改进,翻译模型将学会完全忽略 TM 输入。为了避免这种冷启动问题,该研讨提出了两个穿插对齐任务来热启动检索模型。第一个任务是句子级的穿插对齐。具体来说,该研讨在每个训练 step 上对训练语料库采样 B 个源 – 目的对。设 X 和 Z 分别对应由 E_src 和 E_tgt 编码的源向量和目的向量的 (B×d) 矩阵。ACL 2021 | 腾讯AI Lab、港中文杰出论文:用单语影象实现高功能NMT是一个相关性分数的 (B×B) 矩阵 ,其中每一行对应一个源语句,每列对应一个目的语句。当 i = j 时,任何ACL 2021 | 腾讯AI Lab、港中文杰出论文:用单语影象实现高功能NMT对都应该对齐。目的是最大化矩阵对角线上的分数,然后减小矩阵中其他元素的值。损失函数可以写成:

ACL 2021 | 腾讯AI Lab、港中文杰出论文:用单语影象实现高功能NMT

第二个任务是 token 级穿插对齐,其目的是在给定源语句表征的情况下预测目的语言中的 token,反之亦然。该研讨运用词袋损失:

ACL 2021 | 腾讯AI Lab、港中文杰出论文:用单语影象实现高功能NMT

其中ACL 2021 | 腾讯AI Lab、港中文杰出论文:用单语影象实现高功能NMT表示第 i 个源(目的)语句中的 token 集,token 概率由线性投影和 softmax 函数计算。实验结果该研讨在三种设置下进行了实验:(1)可用的 TM 仅限于双语训练语料库的常规设置;(2)双语训练对很少,但用单语数据作为额外 TM 的低资源设置;(3)基于单语 TM 的非参数域自适应设置。常规设置为了研讨每个模型组件的效果,研讨人员实现了一系列的模型变体(如表 2 中的 #1 – #5):

ACL 2021 | 腾讯AI Lab、港中文杰出论文:用单语影象实现高功能NMT

如上表 2 所示,可以观察到:(1)该研讨运用异步索引刷新训练的完整模型(模型  #5),在四个翻译任务的测试集上取得了最佳功能,比 non-TM 基线(模型 #1)平均高出 3.26 个 BLEU 点,最高可达 3.86 个 BLEU 点( De⇒En)。这一结果证实了单语 TM 可以提高 NMT 的功能。(2)端到端学习检索器模型是大幅提高功能的关键,运用预训练的固定跨语言检索器只能提供中等的测试功能,微调 E_src 和固定 E_tgt 显著提高了功能,同时微调 E_src 和 E_tgt 则能取得最强的功能(模型 #5 > 模型 # 4 > 模型 #3)。(3)跨语言检索(模型 #4 和模型 #5)可以取得比源相似性搜索(模型 #2)更好的结果。低资源设置图 2 为在测试集上的主要结果,一切实验的一般模式都是一致的,由结果可得:TM 越大,模型的翻译功能越好。当运用一切可用的单语数据 (4/4) 时,翻译质量显著提高。未经重新训练的模型的功能与经过重新训练的模型的功能相当,甚至更好。此外,该研讨还观察到,当训练对非常少时(只有 1/4 的双语对可用),小型 TM 甚至会影响模型的功能,这可能是出于过拟合的原因。该研讨推测,根据不同的 TM 大小调整模型超参数将取得更好的结果。

ACL 2021 | 腾讯AI Lab、港中文杰出论文:用单语影象实现高功能NMT

该研讨还与反向翻译 (BT)进行了比较,这是一种将单语数据用于 NMT 的流行格式。该研讨运用双语对训练目的到源的 Transformer Base 模型,并运用得到的模型翻译单语语句以取得额外的合成并行数据。如表 3 所示,该研讨所用格式在 2/4 双语对上比 BT 表现得更好,但在 1/4 双语对上表现较差。 最令人惊喜的是,结果表明两种格式是互补的,他们的结合使翻译功能取得了进一步的巨大提升。

ACL 2021 | 腾讯AI Lab、港中文杰出论文:用单语影象实现高功能NMT

非参数领域自适应由下表 4 可得,当仅运用双语数据时,与 non-TM 基线相比,TM 增强模型在数据较少的域中取得更高的 BLEU 分数,但在其他域中的分数略低。然而,当研讨者将 TM 切换到特定域的 TM 时,一切域的翻译质量都得到了显著提升,将 non-TM 基线平均提高了 1.85 个 BLEU 点,在 Law 上提高了 2.57 个 BLEU 点,在 Medical 上提高了 2.51 个 BLEU 点。该研讨还尝试将一切特定领域的 TM 合并成一个 TM,并将其用于一切域(如表 4 最后一行所示),但实验结果并没有取得明显的改进。这表明域外数据不能提供帮助,因此较小的域内 TM 就足够了。

ACL 2021 | 腾讯AI Lab、港中文杰出论文:用单语影象实现高功能NMT

运行速度FAISS in-GPU 索引能够让搜索数百万个向量变得非常高效(通常在几十毫秒内完成)。在该研讨中,影象搜索的执行速度甚至比原生的 BM25 还要快。对于表 2 中的结果,以普通的 Transformer Base 模型(模型 #1)为基线模型,该研讨模型(包括模型 #4 和模型 #5)的推断延迟大约是基线的 1.36 倍(一切模型都运用一个 Nvidia V100 GPU)。至于训练成本,模型 #4 和模型 #5 每个训练 step 的平均时间成本分别是基线的 2.62 倍和 2.76 倍,与传统的 TM-augmented 基线相当(模型 #2 是 2.59 倍)( 全部运用两个 Nvidia V100 GPU),实验结果如下表 5 所示。此外,该研讨还观察到,就训练 step 而言,影象增强型模型的收敛速度比普通模型快得多。

ACL 2021 | 腾讯AI Lab、港中文杰出论文:用单语影象实现高功能NMT

原创文章,作者:机器之心,如若转载,请注明出处:https://www.iaiol.com/news/acl2021-teng-xun-ailab-gang-zhong-wen-jie-chu-lun-wen-yong/

(0)
上一篇 2021年 8月 5日 下午2:46
下一篇 2021年 8月 8日 下午12:59

相关推荐

  • 一种多用途深度进修方法,用于CITE-seq和单细胞RNA-seq数据与细胞表面蛋白猜测和插补的集成

    编辑 | 萝卜皮CITE-seq 是一种单细胞多组学技术,可同时测量单细胞中 RNA 和蛋白质的抒发,已广泛应用于生物医学研讨,特别是免疫相关疾病和其他疾病,如流感和 COVID-19。尽管 CITE-seq 激增,但生成此类数据的成本仍然很高。尽管数据集成可以增加信息内容,但这带来了计算应战。首先,组合多个数据集容易产生需要解决的批处理效应。其次,很难组合多个 CITE-seq 数据集,因为不同数据分散的蛋白质面板可能仅部分堆叠。整合多个 CITE-seq 和单细胞 RNA 测序 (scRNA-seq) 数据集很

    2022年 10月 31日
  • Creator 面对面 | 如何突破 AI 实践中的资源限制与壁垒?

    AI 的实际应用尚处于早期,对于大多的AI开发者来说,「从无到有」比「从有到优」要重要得多。能在有限的资源下跑通业务流程,比跑得姿态优雅要更重要,模型精度虽然是越准确越好,但当精度达到可用需求之后,精度就不再起决定性作用。

    2022年 7月 18日
  • 悲观智能文档批阅系统,推动证券非结构化文档处理提质提效

    悲观智能批阅系统,实行相关场景非结构化文档的辨别剖析、智能考核及与交易对接等,并通过平台化建设提供一定的可拓展性和泛化能力。

    2022年 1月 11日
  • 量子力学与机械进修相结合,展望低温下的化学反应

    编辑/凯霞在低温下从氧化物中提炼金属不仅对于钢铁等金属的生产至关重要,而且对回收利用也必不可少。但当前的提炼过程是碳密集型的,会排放大量温室气体。钻研人员一直在探索开发「更绿色」的工艺法子。第一性道理理论的自下而上的计较过程设想,将是一个有吸引力的替代方案,但迄今为止尚未实现。来自哥伦比亚大学的钻研团队开发了一种新的计较技术,将量子力学和机械进修相结合,可准确展望金属氧化物对其「贱金属」的复原温度。该法子在计较上与常规计较一样有效,并且在测试中,比利用量子化学法子对温度效应的计较要求高的模拟更准确。该钻研以「Aug

    2021年 12月 13日
  • 淘宝推荐、视频搜刮背后的检索技巧:深度揭秘达摩院向量检索引擎Proxima

    淘宝搜刮推荐、视频搜刮背后使用了什么样的检索技巧?非结构化数据检索,向量检索,以及多模态检索,它们到底处理了什么课题?今天由阿里达摩院的科学家从业务课题出发,抽丝剥茧,深度揭秘达摩院内部技巧,向量检索引擎 Proxima,以及相关领域的现状、挑战和未来。

    2021年 3月 8日
  • 六项使命、多种数据类型,谷歌、DeepMind提出高效Transformer评价基准

    自诞生以来,Transformer 在差别领域得到了广泛应用,钻研职员也提出了许多高效 Transformer 模型。如何评价这类模型呢?最近,谷歌和 DeepMind 提出了一项系统化的统一基准——Long-Range Arena,重点关注长语境场景下的模型质量评价。

    2020年 11月 29日
  • 达摩院发布AI遥感分解云平台,助力提升地球科学研究作用

    3月3日,达摩院发布AI Earth地球科学云平台,平台集成了PB级开源卫星遥感数据、十余种遥感AI算法、云端高性能估计和存储资源,助力研究者开展农业灾害分解、气候变化分解、水体水质分解等科研工作。卫星遥感影象是人类对地观察的重要信息来源,但获取、处理以及分解应用卫星遥感数据的链路较长、成本较高。研究人员需要向卫星数据运营机构申请获取数据或者下载行业公开数据,在本地估计机存储配置后才能进行数据分解。而分解环节对机器的估计和存储资源要求较高,普通估计机无法满足大规模影象数据分解的需求。另外,现有分解方法自动化程度低、

    2022年 3月 3日
  • DeepMind联合UCL,推出2021加强进修最新课程

    DeepMind 的研讨科学家和工程师亲身讲授了一套加强进修课程,目前已全部上线。DeepMind 作为全球顶级 AI 研讨机构,自 2010 年创建以来已有多项世界瞩目的研讨成果,例如击败世界顶级围棋玩家的 AlphaGo 和今年高效展望的蛋白质结构的 AlphaFold。近几年,DeepMind 联合伦敦大学学院(UCL)推出了一些人工智能线上课程,今年他们联合推出的「2021 加强进修系列课程」现已全部上线。该课程由 DeepMind 的研讨科学家和工程师亲身讲授,旨在为学生提供对现代加强进修的全面介绍。课程

    2021年 9月 16日
  • 给5G基带也加上呆板进修单元:高通的AI脑洞还有太多

    最先进的人工智能手艺,并不总意味着数块 GPU、每秒算力上 E 的超算。使用最广泛的移动芯片上,人们正在使用最先进的 AI 手艺。最近,高通再次利用 AI 兑现了「突破性的 5G 效能」。在巴塞罗那举办的 MWC 2022 国际通信展上,高通 CEO 安蒙(Cristiano Amon)发布了全球首款搭载 AI 估计核心的 5G 通信基带骁龙 X70。在显卡、手机 CPU 旁边出现 AI 估计单元之后,现在连通信基带也要专门的 AI 芯片加持了 ,这不仅让人要问:「有必要吗?」首款搭载 AI 核心的 5G 基带根据

    2022年 3月 10日
  • 康奈尔大学发布用于增强型传感器以及高性能计算的a轴超导晶片

    近日,在一篇由清洁能源知识产权许可公司Ambature所赞助的研讨中,来自康奈尔大学,彼得格伦伯格研讨所,JARA未来信息技巧基础,康奈尔大学纳米级科学研讨院卡夫利研讨所以及莱布尼兹研讨所的研讨团队通过在(100)LaAlO3衬底上成长的a轴YBa2Cu3O7-x/PrBa2Cu3O7-x/YBa2Cu3O7-x三层膜完成了世界一流的界面光滑度。这项研讨利用了一种称为分子束内涵(MBE)的沉积方法来验证超导资料的a轴成长。Ambature在全球10个最大的经济体中拥有3600多项独立专利权利要求。其中,许多专利是基

    2021年 2月 12日

发表回复

您的电子邮箱地址不会被公开。 必填项已用 * 标注