类比在人类认知中占有重要地位,通过类比可以发现新的见解和证明日常的推理,比如老师在课堂上用煮熟的鸡蛋类比地球的构造,使得学生很快理解了不能亲自体验的常识。由于在多个领域有着独特价值,类比成为了人工智能研讨领域的重要成绩。在 NLP 中,我们比较熟悉的是以多选题形式出现的词类比识别成绩,然而现有的词类比数据集关注简略的二元类比联系,并且缺乏用于届时类比推理进程的标注信息。因此,解答这一类成绩并不能揭示神经网络模型类比推理的内在进程,这对探究类比的内部性质来说是不利的[6]。我们亟需一类更困难的、可表明的类比推理数据集。本文介绍来自复旦大学、字节跳动人工智能实验室等机构研讨者的最新工作 E-KAR,相关工作已经被 ACL 2022 Findings 接收。E-KAR 是首个可表明的常识密集型类比推理数据集,由 1,655 个(华文)和 1,251 个(英文)来自中国公务员考试的成绩组成,并提出了类比推理成绩的两个基准恣意,用于教会和验证模型学习类比的能力。
• 论文链接:https://arxiv.org/abs/2203.08480• 项目主页:https://ekar-leaderboard.github.io研讨背景简略类比现有的类比推理数据集,多以选择题的形式出现,下图是来自 BATS 数据集 [3] 的一个例子,选项分别是 “马克思” 比“德国人”、“孔子”比 “俄罗斯人”、“凯撒” 比“美国人”和 “柏拉图” 比“加拿大人”,需要选择的是与成绩:“牛顿”比 “英国人” 相同对应联系的选项。
图 1 BATS 数据集中的示例解决这种简略的类比成绩,一种有效的方法是使用像 Word2Vec[2]这样静态的词嵌入,例如我们都很熟悉的这个方程式:
图 2 著名的词嵌入方程式(国王 – 男人 + 女人 = 王后)这一类方法通常认为两个词语之间的联系可以通过词嵌入的向量运算来估计,这被称为线性类比(Linear Analogy)[4]。这种方法行之有效的原因之一是,目前的类比推理数据集通常被设计为评估线性类比属性。这类数据集富含简略的二元联系,如词汇、形态和简略的语义联系,像前面 “牛顿” 比“英国人”的例子,揭示的是 “人物” 和“国籍”的联系。此外,它们也是不可表明的,因此无法揭示实际的类似人类的类比推理进程。复杂类比比起这种相对简略的线性类比,该研讨专注于更加复杂的类比推理成绩(Complex Analogy),这需要理解更多复杂的词语之间的联系。针对于此,本文提出了 E-KAR 数据集,参考一些类比相关的权威书籍和其他定义,完成这些成绩还需要有一系列推理进程和背景常识,下图是其中的一个例子(读者可以尝试完成):
图 3 E-KAR 数据集中的示例E-KAR 数据集E-KAR 数据集是首个可表明的类比推理数据集,它有三个特点:挑战性、可表明性和双语性。挑战性E-KAR 具有挑战性,因为它来源于中国的公务员考试,这是一项对考生的批判性思维和解决成绩能力的综合测试,想要解决其中的类比推理成绩,需要考生理解选项中的联系,这要求一定的推理能力和背景常识,特别是常识、事例和文化常识,以及知道为什么一个事例被否定,例如汽车不是由轮胎制造的,因为汽车是由轮胎组成的。可表明性E-KAR 的第二个特点是可表明性,每条数据的成绩和选项都有对应的人工注释的自由文本表明。但首先我们需要搞清楚:如何使类比推理可表明?为了回答这个成绩,首先需要明白人类是如何进行类比推理的。根据一些认知心理学的研讨[1],类比推理遵循一个构造映照 (structure-mapping) 进程。这个进程包含归纳,映照与检验三个步骤。我们以 E-KAR 中的一组数据为例(见图 4):1. 归纳 (Abduction):对于源域 (source domain) 与目标域 (target domain) 来说,首先设想出一个源构造 (source structure) ,这个构造也可能适用于目标域,在该数据集中,源域是成绩,而目标域是每个选项,源构造是成绩词之间的隐含联系,在例子中则是茶壶和茶杯都是盛放茶叶的容器,茶壶将茶叶输送到茶杯中;2. 映照 (Mapping):接着将这种构造映照到目标域,也就是说,将每个选项的词映照到查询中的源构造中;3. 检验 (Validation):最后,检查映照的有效性,并表明映照是否正确。在示例中,只有选项 C :"人才:学校:企业" 满足成绩中的源构造。因为学校和企业是人才的组织,学校将人才运送到企业。
图 4 类比推理中的构造映照因此,该研讨将构造映照的进程改写为自然说话文本,从而使类比推理的进程可表明,也就是 E-KAR 的可表明性。双语性该研讨利用机翻加人工后编辑的方式,将华文版的 E-KAR 翻译为了英文版本。在英文数据中,研讨者手动删除了那些具有华文特征的数据(成语、典故等),以更好的方便非华文背景的研讨者。由于这些数据具有高度的中国文化背景,研讨者在华文数据集中保留了这部分数据以促进华文 NLP 的发展。最后,得到了 1655 条华文数据集和 1251 条英文数据集,各自有 8275 句和 6255 句自然说话形式的表明文本。恣意设置E-KAR 的最终目标是使得模型能够做出正确的选择,同时产生合理的表明。为此,该研讨在 E-KAR 中定义了两个共享恣意:类比推理问答恣意(Question Answering, QA)和类比表明天生恣意(Explanation Generation, EG):
类比推理问答恣意 (QA):即让模型去完成 E-KAR 中的成绩,输入为成绩和四个选项,输出为正确的答案,最终结果用准确率进行评估。
类比表明天生恣意 (EG):即天生成绩和每个候选答案的相应表明,除了基础的文本天生指标外,该研讨主要使用一种间接的指标进行评估:加入天生表明后的类比回答恣意准确率,即将天生的表明作为类比推理问答恣意 (QA) 额外的输入时后者准确率的变化情况。
实验与结论该研讨基于 E-KAR 在这两个恣意上进行了一些初步实验,发现:1. 词嵌入与说话模型在复杂类比上的表现都不好该研讨首先基于词嵌入和预训练说话模型 (BERT、RoBERTa) 进行了类比推理问答恣意 (QA) 的实验,结果如图 5 所示,这表明无论是静态词嵌入还是目前最先进的说话模型,要想完成 E-KAR 这种复杂和常识密集型的类比推理恣意都很困难。
图 5 词嵌入在 E-KAR 和简略类比数据集上的准确率作为对比,人类能够达到 78% 的准确率,而表现最好的说话模型 (RoBERTa large) 只能达到 50%(图 6)。
图 6 词嵌入、说话模型和人类在简略类比与复杂类比上的准确率对比类比问答正确分析该研讨对结果进行了正确分析(图 7),发现大多数正确发生在语义联系上,如 is_a、part_of、juxtaposition_of 等。这些类型的联系通常需要大量的常识和事例常识的参与。
图 7 类比推理问答恣意 (QA) 正确分析2. 说话模型在可表明的类比推理上表现不好该研讨的类比表明天生可以天生每个成绩和选项的对应表明,再将这些表明用于类比推理问答恣意 (QA),这也是体现可表明性的关键步骤,然而一系列实验表明,说话模型并不能天生对类比推理问答恣意(QA) 很有帮助的表明。首先,用该研讨事先标注好的表明去作为额外的输入,能帮助类比推理问答恣意 (QA) 达到接近完美准确率。然而替换成天生的表明时,结果却差很多(图 8)。
图 8 事先标注的表明与模型天生的表明对 QA 恣意的帮助对比表明天生正确分析该研讨也对类比表明天生恣意 (EG) 进行了正确分析(图 9),发现成绩主要出现在这三个方面:1. 无法天生否定的事例;2. 天生的是与事例不符的句子;3. 天生结果偏向于常见的模式。其中,该研讨对否定词的天生特别感兴趣。结果显示约有 90% 的正确选项的人工标注表明,包含了否定词 "不",而在天生的表明中,这一数字则下降到约 20%。这似乎表明目前的天生模型不知道如何天生一个被否定但却是正确的事例。由于许多表明含有否定词,研讨者探讨否定词的天生是否影响了模型的判断,为此该研讨删除了测试集中含有否定词 NOT 的句子,结果发现准确率只下降了一点。因此,另一个结论是,当给出人工标注的表明时,类比推理问答 (QA) 恣意的模型似乎并不偏向于否定词。图 9 展示了一个基本涵盖了上述几乎所有正确类型的例子。代表成绩的表明,
代表选项 A 的表明,
表示为模型 (BART large) 天生的,不带
的是事先标注好的,可以看到,对于否定句,模型不知道盐和氯化钠都不是只由一种元素组成的,天生的表明偏向于 “A 是 B” 的模式。
图 9 E-KAR 数据集中的示例 2总结在这篇文章中,研讨者提出了一个新的类比推理数据集 E-KAR,它具有挑战性,双语性和可表明性,同时研讨者定义了两个该数据集的共享恣意:类比推理问答恣意 (QA) 和类比表明天生恣意 (EG) ,用于教会模型如何学会类比的能力。该研讨希望这项工作能补充现有的自然说话推理研讨,特别是类比推理和可表明的 NLP 的相关研讨。E-KAR 数据集中很多题目依赖于外部常识,需要对常识、百科和文化常识有一定理解,因此如何注入外部常识提升推理能力是未来的一大方向。注入外部常识可以通过自由文本、常识图谱等形式,代替表明作为输入的一部分,模型可以分为检索部分和问答部分。检索部分负责在外部常识库中搜索相关词组,并重构其相关常识的表示,问答部分负责融合检索到的外部常识与原输入,提升模型推理能力。参考文献1.Gerhard Minnameier. 2010. Abduction, induction, and analogy. In Model-based reasoning in science and technology, pages 107–119. Springer.2.Mikolov T, Chen K, Corrado G, et al. Efficient estimation of word representations in vector space[J]. arXiv preprint arXiv:1301.3781, 2013.3.Gladkova A, Drozd A, Matsuoka S. Analogy-based detection of morphological and semantic relations with word embeddings: what works and what doesn’t[C]//Proceedings of the NAACL Student Research Workshop. 2016: 8-15.4.Ethayarajh K, Duvenaud D, Hirst G. Towards understanding linear word analogies[J]. arXiv preprint arXiv:1810.04882, 2018.5.Ushio A, Espinosa-Anke L, Schockaert S, et al. BERT is to NLP what AlexNet is to CV: can pre-trained language models identify analogies?[J]. arXiv preprint arXiv:2105.04949, 2021.
原创文章,作者:机器之心,如若转载,请注明出处:https://www.iaiol.com/news/24498