百分点认知智能实验室:CCKS学问图谱问答大赛的季军实现规划

编者按:2021年全国学问图谱与计算语义大会(China Conference on Knowledge Graph and Semantic Computing 2021)共设立五个评测主题,十四个

编者按:2021年全国学问图谱与计算语义大会(China Conference on Knowledge Graph and Semantic Computing 2021)共设立五个评测主题,十四个评测任意。百分点认知实验室参加了该评测任意中的“生活服务规模学问图谱问答”比赛,经过长达3个多月的激烈角逐,百分点认知智能实验室在比赛数据集上得分0.7852,位列B榜第三名,获得该大赛的季军。本文主要介绍实验室在本次比赛和学问图谱问答业务实践中使用的技术规划。

一、背景介绍

学问图谱的早期理念源于万维网之父Tim Berners-Lee关于语义网(The SemanticWeb)的设想,旨在采用图结构(Graph Structure)来建模和记录世界万物之间的关联联系和学问,以便有效实现更加精准的对象级搜索。学问图谱的相关技术已经在搜索引擎、智能问答、语言理解、推荐计算、大数据决策分析等众多规模得到广泛的实际应用。

随着自然语言处理、深度学习、图数据处理等众多规模的飞速发展,学问图谱在自动化学问猎取、学问表示学习与推理、大规模图挖掘与分析等规模又取得了很多新进展。学问图谱已经成为实现认知层面的人工智能不可或缺的重要技术之一。

学问图谱是较为典型的交叉规模,涉及学问工程、自然语言处理、机器学习、图数据库等多个规模。而学问图谱的构建及应用涉及更多细分规模的一系列关键技术,包括:学问建模、联系抽取、图存储、自动推理、图谱表示学习、语义搜索、智能问答、图计算分析等。做好学问图谱需要系统掌握和应用这些分属多个规模的技术。

近年来,基于自然语言的问答系统逐渐成为人工智能及其相关产业的重点关注规模,成为人机交互的新趋势。相比于传统的搜索引擎猎取学问的方式,智能问答系统基于自然语言交互的方式更符合人的习惯。

随着人工智能的进一步发展,学问图谱在深度学问抽取、表示学习与机器推理、基于学问的可解释性人工智能、图谱挖掘与图神经网络等规模取得了一系列新的进展。这些进展让学问图谱的问答系统需要面对的两个题目(题目的理解和题目到学问图谱的语义关联)得到了较好的解决,使得学问图谱智能问答工程应用成为现实。百分点认知智能实验室在多个行业积累了丰富的基于学问图谱问答的技术实践经验。

二、赛题任意

1. 任意描述

本任意属于中文学问图谱自然语言问答任意,简称CKBQA (Chinese Knowledge Base Question Answering)。即输入一句中文题目,问答系统从给定学问库中选择若干实体或属性值作为该题目的谜底。

今年在OpenKG基础上引入生活服务规模学问库及问答数据。其中包括旅游、酒店、美食等多种规模的数据,同开放规模学问库PKUBASE一起作为问答任意的依据。

2. 数据格式

数据集以自然语言问句和对应的SPARQL查问语句标记组成。

SPARQL [1]  (SPARQL Protocol and RDF Query Language),是为RDF开发的一种查问语言和数据猎取协议。其语法由三元组组成,其中?x所在where语句中的位置表示需要查问的是哪一个要素。

比赛数据示例:

题目:莫妮卡·贝鲁奇的代表作?

Sparql:select?x where { <莫妮卡·贝鲁奇> <代表作品> ?x. }

谜底:<西西里的美丽传说>

3. 题目格式

传统的题目学问图谱查问题目类型,根据实体数量不同主要分为单实体查问、双实体查问、三实体查问,又根据查问方式不同分为一跳查问,跳查问、联系查问,如图1所示。

百分点认知智能实验室:CCKS学问图谱问答大赛的季军实现规划

图1. 传统题目类型

今年在题目设置上引入了一些特殊题目类型,主要是添加了filter、order等函数和http://www.w3.org/2001/XMLSchema#float等RDF标准类型后缀的美团生活服务类题目,如图2所示。

百分点认知智能实验室:CCKS学问图谱问答大赛的季军实现规划

图2. 特殊类型题目

三、技术规划

1. 规划概述

百分点科技提出了一种结合语义剖析和信息检索的方法,该方法应用语义剖析处理具有固定句型或“Filter”等函数的题目,并应用信息检索处理具有不同句式的题目。技术规划总结如图3所示。在信息检索模块中,Pipeline由四个子模块组成,即指称鉴别、实体链接、途径天生和途径排序。在语义剖析模块中,百分点科技采用了SPARQL模板立室和SPARQL天生两种方法实现。最后,通过同样的方式选择谜底,将语义剖析模块和信息检索模块集成在一起。

百分点认知智能实验室:CCKS学问图谱问答大赛的季军实现规划

图3. 技术规划总结

该规划的优势在于能够处理复杂函数结构的题目,例如:

题目:我们现在在北京的首都宾馆,行走3公里的能到达的景点都有哪些?

Sparql:select ?x where { <首都宾馆(原首都大酒店)> <附近> ?cvt. ?cvt <实体名称> ?x. ?cvt <距离值>  ?d. ?x <类型><景点>. filter(?d<=3) }

2. 规划介绍

百分点认知智能实验室:CCKS学问图谱问答大赛的季军实现规划

图4. 流程实现和模型原理图

技术规划框架如图4所示,各个模块与各个子模块执行流程与功能介绍如下。

信息检索(Information Retrieval):借助题目传递的信息,直接从KG中检索出可能的谜底,并排序谜底。

指称鉴别:鉴别题目中说起的图谱实体节点的文本片段;实体链接:根据指称和题目检索出图谱中与其对应的实体,作为话题实体;途径天生:从鉴别到的话题实体出发,遍历天生从话题实体到谜底实体的候选途径;途径排序:对候选途径进行排序,筛选出最能回答题目的正确途径。

语义剖析(Semantic Parsing):将题目剖析成可执行的Sparql查问语句,执行语句猎取谜底。分为两种方法,一种是Sparql模板立室,一种是Sparql天生,两种方法相互独立。

(1)SPARQL模板立室:将题目与训练集中最相似的SPARQL模板进行立室。

(2)SPARQL天生:利用预训练语言模型Unilm天生新的SPARQL。

query2Sparql:根据query语义剖析成Sparql语句;Sparql候选途径天生:基于Sparql语句中的实体,去学问图谱中立室与Sparql相关的候选途径;途径排序:对候选途径进行排序,筛选出最能回答题目的正确途径。

结果合并:根据不同模型输出结果的排序分数对输出进行过滤,猎取最终结果。

3. 指称鉴别

指称鉴别的目标是鉴别题目中提到的学问库实体的文本片段。为了提高召回率,百分点科技实现了四种说起鉴别方法。

(1)序列标注:如图5所示,将鉴别作为序列标记任意建模,并基于Roberta+CRF训练K-Fold交叉验证的序列标记模型。

百分点认知智能实验室:CCKS学问图谱问答大赛的季军实现规划

图5. 序列标注模型架构

(2)立室-判别式:候选实体指称数目较多,因此通过一个指称判别模型进行过滤。在候选指称的开始和结束位置加入“&”号作为实体位置标志位,然后用BERT模型做文本分类判断当前的实体指称是否正确。

基于规则的鉴别:使用正则表达式来立室特殊的实体和属性值,如日期、连续英语和引号中的文本片段等。

基于字典的鉴别:通过最长立室算法与实体说起词典鉴别题目中的说起。

模糊立室:建立一个实体说起次数的倒排索引,然后将题目作为查问词,回忆出立室度最高的前10个说起次数。以序列标注的输出为主要结果,辅以其他方式的结果。

4. 实体链接

当前任意是基于上一步获得的候选实体指称,找到其对应的KG中真实存在的实体,也称为话题实体。分为以下步骤:

(1)猎取候选实体:使用上一步猎取到的实体说起在别名字典与实体集合中进行模糊立室,猎取排名top10的候选实体。

(2)猎取邻居节点信息:从候选实体出发(作为头实体或尾实体),猎取候选实体的所有一阶途径。

(3)按照PageRank分数过滤邻居节点:猎取候选实体邻居节点的PageRank分数,保留前10分数的邻居节点。

PageRank假设:

数量假设:一个实体节点的入度(被链接数)越大,实体重要性越高。

重要性假设:一个实体节点的入度的来源(哪些实体在链接它)重要性越高,实体重要性越高。

(4)融合邻居节点信息的BERT语义立室度计算:利用邻居节点和题目信息,通过BERT进行语义立室度计算,过滤候选实体,得到话题实体。

候选实体筛选模型输入数据格式:[CLS]题目[SEP]说起&候选实体[SEP]邻居节点联系[SEP]

计算方式:取[CLS]张量做二分类(0,1分类),保留其分数排名top10 的实体。

5. 途径天生

在实体链接步骤中猎取到了题目中的话题实体,途径天生是从话题实体出发,遍历KG,天生所有可能的谜底途径,在过程中对途径进行剪枝。

(1)途径召回:途径召回策略分为单实体和多实体两种情况。其中,多实体优先,即如果多实体间存在途径,则不进行单实体召回。

单实体:

(1) 作为头实体的一度途径 <实体><联系><?x>;

(2) 作为尾实体的一度途径 <?x><联系><实体>;

(3) 对 (1) 扩展至二度出途径 <实体><联系1><?x><?x><联系2><?y>;

(4) 对 (1) 扩展至二度入途径 <实体><联系1><?x><?y><联系2><?x>;

(5) 对 (2) 扩展至二度出途径 <?x><联系1><实体><?x><联系2><?y>;

(6) 对 (2) 扩展至二度入途径 <?x><联系1><实体><?y><联系2><?x>。

多实体(以双实体为例):

(1) 一度途径 <实体1><联系1><?x><实体2><联系2><?x>;

(2) 一度途径 <?x><联系1><实体1><?x><联系2><实体2>;

(3) 一度途径 <?x><联系1><实体1><实体2><联系2><?x>;

(4) 一度途径 <实体1><联系1><?x><?x><联系2><实体2>;

(5) 对 (1)(同2、3、4) 扩展至二度出途径 <实体><联系1><?x><实体2><联系2><?x><?x><联系3><?y>;

(6) 对 (1)(同2、3、4) 扩展至二度入途径 <实体><联系1><?x><实体2><联系2><?x><?y><联系3><?x>;

(7) 实体间的联系<实体1><?x><实体2>。

(2)剪枝:为避免候选谜底数目爆炸,我们根据以下策略进行剪枝。

(1) 删除一跳途径中谜底实体是话题实体的途径,避免将话题实体本身作为谜底;

(2) 如果二跳节点超过10000个,则不进行二跳;

(3) 删掉二跳途径中谜底实体是话题实体的途径,避免将话题实体本身作为谜底;

(4) 当二跳途径(出或入)数超过100条但小于500时,删掉二跳途径(出或入)中的联系与问句没有任何字符上的交集的候选谜底途径;

(5) 当二跳途径(出或入)数超过500时,过滤掉所有二跳途径。

6. 途径排序

途径排序分为粗排和精排两个步骤。

粗排:根据题目query和候选途径path的特征,对候选途径进行粗排,采用LightGBM机器学习模型,保留最多20条途径,选取的模型特征如图6所示。

百分点认知智能实验室:CCKS学问图谱问答大赛的季军实现规划

图6. LightGBM模型特征

精排:采用预训练语言模型计算query和path的语义立室度,选择得分最高的谜底途径作为谜底,如图7所示。

百分点认知智能实验室:CCKS学问图谱问答大赛的季军实现规划

图7. 语义相似度计算模型

7. SPARQL模板立室

当前任意是根据训练集的数据猎取“题目——Sparql”的问答模板,然后通过立室题目模板的方式猎取Sparql模板,并将实体联系填入Sparql模板,得到完整的Sparql。

(1)问句Sparql对模板天生:利用训练集的sparksql,抠出实体形成槽位,天生模板。

(2)问句抽象:将问句query转化为抽象的query模板,以方便下一步的query立室和Sparql模板槽位填充。具体地,利用分词工具将词性为LOC,ORG,nz,m,PER,n的词抠出,并替换成相对的词性。

(3)问句模板相似度计算:相似度计算方法“格式塔模式立室”,保留相似度分数最大的抽象query模板,取其对应的抽象Sparql模板。

(4)填补Sparql 模板槽位:将query中的实体联系和抽象Sparql模板中的槽位一一对应,将对应的实体联系填入到Sparql模板中,得到完整的Sparql。

8. SPARQL天生

采用预训练语言模型Unilm(Unified Language Model)的seq2seq架构天生Sparql。类似于翻译任意,输入题目,输出Sparql,Unilm模型结构如图8所示。

百分点认知智能实验室:CCKS学问图谱问答大赛的季军实现规划

图8. query2sparql模型

输入query:运动员李娜的丈夫的主要奖项有哪些?

输出Sparql:select ?Z where{?X <中文名> “李娜”. ?X <类型><运动员>. ?X <丈夫> ?Y.?Y <主要奖项> ?Z.}

由于Unilm模型直接天生的Sparql可能与KG中存在的实体联系有差异,如上例中的“李娜”的“丈夫”是用“配偶”存储的,故不能直接查问得到谜底,还需对实体联系做进一步的修补,使修补后的Sparql的实体和联系是真实存在于KG中的。有以下4种修补策略:

(1)原实体不存在时,先修实体后修联系。具体地,采用实体链接中的猎取候选实体方法得到新实体,然后把原联系替换成新实体的一阶联系。

(2)原联系不存在时,先修联系再修实体。具体地,采用原联系在Elasticsearch中联系字典的模糊立室或者原联系的同义词联系(需在kg的联系字典中),然后把原实体替换成新联系的一阶实体。

(3)不管原实体联系是否存在,修实体+修联系。

(4)对实体使用Sparql的regex语法(不需要完全正确的实体名称)。例如:select ?x where { ?x <主要成就> ?y. filterregex(?y, ‘杂交水稻之父’). }

由于修补后一个题目会有多个候选Sparql途径,因此也需对其进行排序,筛选出最能回答题目的正确Sparql,方法同信息检索中途径排序中的BERT精排。

9. 结果合并

在信息检索和语义剖析两大类方法中,最终都是使用的同一模型计算与题目的相似度,因此可以将两类方法的结果放在一起比较,取分数最高的结果作为最终谜底。

四、评测效果

本规划在2021 CCKS学问图谱问答大赛的数据集上进行了评测,数据方面,相较往年在OpenKG基础上引入生活服务规模学问库及问答数据,其中包括旅游、酒店、美食等多种规模的数据,同开放规模学问库PKUBASE一起作为问答任意的依据。特别是生活服务规模的数据集,涉及过滤、分类等功能。训练集有6525个带标签sparql和谜底的题目,开发集有2100个题目,测试集有1191个题目。给定的学问图包含6600万个三元组和超过2000万个实体。

百分点科技使用ElasticSearch构建一个反向索引,整个学问图谱存储在Nebula图形数据库中,BERT模型统一使用RoBERTa-wwm-ext-large。

本任意的评价指标包括宏观准确率(Macro Precision),宏观召回率(Macro Recall),Averaged F1值。

本规划最终的实验效果指标如下:

鉴别效果:Averaged F1=0. 7852

总结

在应用有效性方面,通过2021年全国学问图谱与计算语义大会学问图谱问答任意,百分点科技设计的规划在公开数据集上性能表现优秀,具有很好的应用效果,且后续可继续对途径排序算法进行优化,使其能够更准确地选择正确的谜底。

在价值潜力方面,该规划扩展性强,且适合各种不同业务场景的问答需求,表现出良好的可扩展性,适合工程应用。

百分点认知智能实验室已经将该规划部署到了众多不同业务的学问图谱系统中,将学问图谱与预训练模型融合,通过逻辑推理进行复杂题目查问,让问答查问更智能。

参考资料

[1]Yao, X . and B . Van D urm e. Information extractionover structured data: Q uestion answering with freebase. in Proceedings of the52nd Annual Meeting of the Association for Computational Linguistics (Volume 1:Long Papers). 2014.

[2]Bordes, A., S. Chopra, and J. Weston, Questionanswering with subgraph embeddings. arXiv preprint arXiv:1406.3676, 2014.

[3]Abujabal, A.; Y ahya, M.; Riedewald,M.; and Weikum, G.2017. Automated template generation for question answering over knowledgegraphs. In WWW 2017, 1191–1200.

[4]Berant, J., et al. Semantic parsing on freebase fromquestion-answer pairs. In Proceedings of the 2013 conference on empiricalmethods in natural language processing. 2013.

[5]Page, Lawrence, Brin, et al. Page, L.  et al.: The PageRank citation ranking:Bringing order to the web[J]. stanford digital libraries working paper, 1998.

[6]Dong L , Y ang N , Wang W , et al. Unified LanguageModel Pre-training for Natural Language Understanding and Generation[J]. 2019.

原创文章,作者:百分点科技,如若转载,请注明出处:https://www.iaiol.com/news/33440

(0)
上一篇 2022年5月11日 下午5:14
下一篇 2022年5月12日 下午2:25

相关推荐

发表回复

您的电子邮箱地址不会被公开。 必填项已用*标注