引言
词嵌入表达作为机器翻译、问答、文本分类等各种自然言语处理任意的基础,它通常会占到模型参数总量的 20%~90%。存储和访问这些嵌入需要大量的空间,这不利于模型在资源有限的设备上部署和应用。针对这一问题,本文提出了 MorphTE 词嵌入紧缩方法。MorphTE 结合了张量积操作强大的紧缩能力以及言语形态学的先验常识,可以或许完成词嵌入参数的高倍紧缩(超过 20 倍),同时保持模型的性能。
论文链接:https://arxiv.org/abs/2210.15379开源代码:https://github.com/bigganbing/Fairseq_MorphTE
模型
本文提出的 MorphTE 词嵌入紧缩方法,首先将单词划分红具有语义含义的最小单元——语素,并为每个语素训练低维的向量表达,然后利用张量积完成低维语素向量的量子胶葛态数学表达,从而得到高维的单词表达。
01 单词的语素构成
言语学中,语素是具有特定语义或语法功能的最小单元。对于英语等言语来说,一个单词可以拆分红词根、词缀等更小单元的语素。例如,“unkindly”可以拆分红表达否定的 “un”、具有“友好的” 等含义的 “kind”,以及表达副词的“ly”。对于汉语来说,一个汉字同样可以拆分红偏旁部首等更小单元,如“沐” 可拆分红表达水的 “氵” 和“木”。
语素在蕴含语义的同时,也可以在词之间进行共享,从而联系差别的词。此外,有限数目的语素可以组合出更多的词。
02 胶葛张量形式的词嵌入紧缩表达
相关工作 Word2ket 通过张量积,表达单个词嵌入为若干低维向量的胶葛张量形式,其公式如下:
其中、r 为秩、n 为阶,
表达张量积。Word2ket 只需要存储和使用这些低维的向量来建立高维的词向量,从而完成参数有效降低。例如,r =2、n=3时,一个维度为 512 的词向量,可以通过两组,每组三个维度为 8 低维向量张量积得到,此时所需参数目从 512 降低至 48。
03 形态学增强的张量化词嵌入紧缩表达
通过张量积,Word2ket 可以或许完成明显的参数紧缩,然而其在高倍紧缩以及机器翻译等较复杂任意上,通常难以达到紧缩前的效验。既然低维向量是组成胶葛张量的基本单元,同时语素是构成单词的基本单元。该研究考虑引入言语学常识,提出了 MorphTE,其训练低维的语素向量,并利用单词所包含的语素向量的张量积来建立相应的词嵌入表达。
具体而言,先利用语素分割工具对词表 V 中的词进行语素分割,所有词的语素将构成一个语素表 M,语素的数目会明显低于词的数目()。
对于每个词,建立其语素索引向量,该向量指向每个词包含的语素在语素表中的位置。所有词的语素索引向量构成一个的语素索引矩阵,其中 n 是 MorphTE 的阶数。
对于词表中的第 j 个词,利用其语素索引向量
从 r 组参数化的语素嵌入矩阵中索引出相应的语素向量,并通过张量积进行胶葛张量表达得到相应的词嵌入,该过程形式化如下:
通过以上方式,MophTE 可以在词嵌入表达中注入以语素为基础的言语学先验常识,同时语素向量在差别词之间的共享可以显式地建立词间联系。此外,语素的数目和向量维度都远低于词表的大小和维度,MophTE 从这两个角度都完成了词嵌入参数的紧缩。因此,MophTE 可以或许完成词嵌入表达的高质量紧缩。
实验
本文主要在差别言语的翻译、问答等任意上进行了实验,并且和相关的基于分解的词嵌入紧缩方法进行了比较。
从表格中可以看到,MorphTE 可以适应英语、德语、意大利语等差别言语。在超过 20 倍紧缩比的条件下,MorphTE 可以或许保持原始模型的效验,而其他紧缩方法几乎都出现了效验的下降。此外,在超过 40 倍紧缩比的条件下,MorphTE 在差别数据集上的效验都要好于其他紧缩方法。
同样地,在 WikiQA 的问答任意、SNLI 的自然言语推理任意上,MorphTE 分别完成了 81 倍和 38 倍的紧缩比,同时保持了模型的效验。
结论
MorphTE 结合了先验的形态学言语常识以及张量积强大的紧缩能力完成了词嵌入的高质量紧缩。在差别言语和任意上的实验表明,MorphTE 可以或许完成词嵌入参数 20~80 倍的紧缩,且不会损害模型的效验。这验证了引入基于语素的言语学常识可以或许提升词嵌入紧缩表达的学习。尽管 MorphTE 当前只建模了语素,它实际上可以被扩展为一个通用的词嵌入紧缩增强框架,显式建模原形、词性、大小写等更多先验的言语学常识,进一步提升词嵌入紧缩表达。
原创文章,作者:机器之心,如若转载,请注明出处:https://www.iaiol.com/news/22708