AI在线 AI在线

人工智能和知识图谱三:知识图谱系统的基准与评估

一、通用基准知识图谱一些大型知识库已成为事实上的研究基准,通常用作链接预测、问答和实体分类等任务的数据来源。 关键的基准包括:Freebase:一个巨大的通用领域图谱,前身是谷歌收购的开放数据库,包含数百万个实体的事实。 虽然 Freebase 本身已停止服务,已迁移至 Wikidata,但它仍在基准测试中继续存在。

人工智能和知识图谱三:知识图谱系统的基准与评估

一、通用基准知识图谱

一些大型知识库已成为事实上的研究基准,通常用作链接预测、问答和实体分类等任务的数据来源。关键的基准包括:

Freebase:一个巨大的通用领域图谱,前身是谷歌收购的开放数据库,包含数百万个实体的事实。虽然 Freebase 本身已停止服务,已迁移至 Wikidata,但它仍在基准测试中继续存在。值得注意的是,Freebase 的子集在机器学习评估中被广泛使用——FB15k及其精炼版本FB15k-237是链接预测的常用基准测试。它们包含 15,000 个实体和各种关系类型,这些关系类型的提取方式使得训练及测试集的拆分能够避免某些数据泄露问题,FB15k-237 移除了逆关系,以确保评估公平。Freebase 也是常见问答基准测试的基础,例如 WebQuestions 和 SimpleQuestions,这些基准测试的任务是将自然语言问题映射到 Freebase 事实。然而,随着 Freebase 的停用,社区正在逐渐远离它。

DBpedia:一个早期且颇具影响力的知识图谱,它提取自维基百科的信息框。DBpedia 代表维基百科实体的结构化信息,长期以来一直是开放领域知识的首选来源。它常用于知识图谱问答 (KGQA)基准测试;例如,QALD(基于链接数据的问答)挑战赛的前 9 届都使用 DBpedia 作为基础数据。DBpedia 覆盖范围广泛,但已知存在一些噪声提取,并且更新速度不如维基数据。研究人员过去曾使用 DBpedia 来评估 SPARQL 查询性能和语义搜索系统,以及对子集进行链接预测。

Wikidata:维基百科社区精心策划的知识图谱,已发展成为最大的开放式知识图谱之一,截至 2025 年拥有超过 1 亿个条目。Wikidata 支持多种语言,持续更新,涵盖大量主题并提供参考。近年来,它已成为许多任务的首选基准,使用率超过了 DBpedia 和 Freebase。例如,知识图谱问答 (KGQA) 社区已开始使用基于 Wikidata 的问答数据集(如 LC-QuAD 2.0、KGraph-QA 等),并将旧基准从 DBpedia 迁移到 Wikidata。QALD-10 基准(2023 年)从 DBpedia 迁移到 Wikidata,并指出由于图结构(如 Wikidata 对限定符的使用)和多语言方面的差异,迁移并非易事 。 Wikidata 也用于链接预测和知识图谱补全任务:像WN18RR(WordNet 和 Wikidata)或Wikidata5M这样的子集提供了易于管理的评估切片。Wikidata 作为基准的一个挑战在于其复杂性——它是一个超关系图(语句可以包含时间、位置、来源等限定词),并且在长尾领域不完整,这可能会使评估变得复杂。

YAGO:最初结合了维基百科和WordNet的知识图谱,旨在构建结构良好且精度高的本体。YAGO(Yet Another Great Ontology,又一个伟大的本体)拥有多个版本;YAGO3专注于多语言信息,并致力于提升分类学权重。它比Wikidata/DBpedia规模更小,但通常更简洁。YAGO3-10是用于链接预测基准测试的子集,以其大量的关系类型和相当庞大的实体集而闻名。YAGO通常用于学术实验,当更符合本体的知识图谱(KG)更有利时,它具有与WordNet一致的类型层次结构。

WordNet:并非关于世界实体的知识图谱,而是一个包含词汇(名词、动词等)及其关系(同义词、上位词等)的词汇语义网络。它被用作知识图谱的基准,尤其适用于链接预测,经典的词汇关系数据集WN18和WN18RR。WordNet 可用于测试基于分层小世界概念网络的算法。

行业基准:除了这些开放的知识图谱 (KG) 之外,某些领域也有自己的基准:例如,在医疗保健领域,UMLS或Hetionet等生物医学知识图谱被用作药物研发或基因-疾病关联预测等任务的基准。开放生物链接 (OGB)计划包含蛋白质-药物-疾病知识图谱等图谱。开放图谱基准 (OGB)是一项近期成果,包含一些面向知识的图谱任务,例如ogbl-wikikg2,WikiKG 的一个子集,包含数百万个用于关联预测的节点和边。这些标准化的划分有助于比较在更大、更真实的图谱上嵌入算法的优劣。

二、评估指标

评估方式取决于具体任务。常见指标包括:

链接预测指标:对于像知识图谱补全(预测缺失关系)这样的任务,排名指标是标准的。这些指标包括平均倒数排名 (MRR) ——第一个正确答案的倒数排名的平均值——以及Hits@N——正确实体在前 N 个预测中排名的测试查询比例。例如,在 FB15k-237 上,一个算法可能达到 X% 的 Hits@10,这意味着它将正确的尾部实体放在前 10 个列表中的概率为 X%。对于基于排名的指标,例如平均排名或平均倒数排名(其中 MRR 越高越好),该指标越低越好。由于知识图谱对一个查询可能有多个正确答案(例如,一个人可能有多个职业),因此使用过滤指标(在排名评估中忽略其他正确答案)。这些指标强调了嵌入或模型在预测合理边方面的准确性。

问答指标:对于 KGQA 基准(其任务是针对自然问题返回一个或多个实体或值),评估通常使用准确率、召回率和 F1(尤其是对于具有多个答案的列表问题)。例如,如果问题是“哪些演员主演了《盗梦空间》?”,则可能会根据系统是否返回所有正确的演员(真正例与假正例)来评估系统。QALD 和其他 QA 挑战通常会测量每个查询的 F1 分数并取平均值。如果答案是自然语言,有些人会使用 BLEU 或 ROUGE,但对于结构化答案,通常使用基于集合的准确率/召回率。一个有趣的复杂之处:将问题映射到 SPARQL 查询 - 在那里,通过执行 SPARQL 并比较结果来衡量准确率。语言理解的复杂性通常导致这里的分数低于纯链接预测。

本体对齐和模式匹配:在需要评估知识图谱的模式或对齐情况(例如匹配两个知识图谱的本体)时,会使用诸如对齐对的准确率/召回率或基于嵌入的评估等指标。这是一个较为小众的评估领域。

查询性能指标:对于图形数据库,重要的评估方面不仅是准确性,还有性能(尤其是对于工业界而言)。诸如 LDBC 社交网络基准测试(LDBC SNB)之类的基准测试为图形数据库提供了查询工作负载,以测试复杂图形查询的吞吐量和延迟。典型指标包括各种负载下的每秒查询次数、平均查询延迟等。在语义网中,经典指标是BSBM(柏林 SPARQL 基准测试)或LUBM(利哈伊大学基准测试),它们生成合成数据和一套 SPARQL 查询,以衡量三元组存储回答查询的速度(无论是否推理)。例如,LUBM 有关于大学的查询,而三元组存储的衡量标准是它们可以加载多少个三元组以及它们回答这些查询的速度。这些指标对于扩展考虑至关重要 - 例如,一个系统在简单查找中可能处理 1000 QPS,但在具有多个连接的繁重分析查询中只能处理 5 QPS。

知识图谱的准确性和完整性:除了模型性能之外,还可以讨论知识图谱内容本身的准确性(尤其是在自动构建的情况下)。这通常通过精确度/召回率来衡量,并以黄金标准为准:例如,如果一个系统从文本中提取了一个知识图谱,我们可能会手动或通过已知数据来计算提取出的关系中有多少是正确的(精确度),以及有多少已知的真实关系被遗漏了(召回率)。完整性是一个棘手的指标——真正的知识图谱是不完整的(并非所有真实事实都包含在内)。研究人员已经提出了一些指标或启发式方法(例如,每种关系类型的完整性得分,例如,基于一个人在数据中与现实中平均有多少个配偶)。但完整性通常与领域相关。一些自动方法尝试对其进行估计,例如使用 PSTAT 或其他统计估计来估计可能有多少缺失的链接。

推理/推理的质量:评估推理器时,可以检查其健全性和完备性(它是否能推断出所有有效结论,且没有任何错误)。在实践中,这可以是验证推理后的知识图谱是否符合本体的预期蕴涵(可以在已知闭包的精选本体上进行测试)。

三、基准测试中的挑战

评估知识图谱和基于 KG 的 AI 系统面临着独特的挑战:

固有的不完整性:现实世界的知识图谱(例如 Wikidata)从来都不是完整的——总有更多事实存在。这意味着,对于链接预测之类的任务,测试中的“假阴性”实际上可能是知识图谱中缺失的真实事实。例如,一个模型可能预测某人赢得了某个奖项,但该奖项并未记录在知识图谱中;这可能是一个正确的事实,只是知识图谱尚未更新。因此,传统的指标可能会产生误导——模型可能会因为预测了某个真实但缺失的事实而受到惩罚。研究人员通过使用筛选指标或专注于知识图谱中精心策划的部分来缓解这个问题,但这仍然是一个根本问题:封闭世界假设不成立——知识图谱中缺少链接并不能证明其为假。

知识演进:像 Wikidata 这样的知识图谱 (KG) 瞬息万变(新增实体、新增链接)。基准快照很快就会过时。例如,如果在 Wikidata 上评估 QA,如果之后添加了新的事实,答案可能会发生变化。这增加了可重复性的难度,并且需要仔细控制数据集的版本。将基准从一个知识图谱版本迁移到另一个版本也需要大量人力(例如 QALD-10 迁移到 Wikidata的情况)。

模式与异构性:不同的知识图谱 (KG) 拥有不同的模式(或者根本没有模式)。Freebase、Wikidata 和 DBpedia 等不同知识图谱对知识的编码方式也各不相同(一个人的配偶在其中一个知识图谱中可能是直接链接,在另一个知识图谱中可能是带有限定词的空白节点,等等)。这使得很难找到一个适用于所有知识图谱的单一评估协议。即使将 QA 基准从 DBpedia 迁移到 Wikidata,也会因为建模方式的差异(例如 Wikidata 的限定词系统)而面临问题。确保一个系统不会因特定知识图谱的特性而过拟合是一项挑战。

“知识质量”指标:量化知识图谱本身的整体质量并非易事。我们可以测量特定任务的查询答案准确性,但如何衡量知识图谱 A 是否普遍优于知识图谱 B?质量维度包括准确性(错误事实较少)、完整性、一致性(无逻辑矛盾)和时效性(更新程度)。评估通常侧重于某个部分——例如,取 500 个已知的真/假事实,看看哪个知识图谱是正确的。但考虑到知识的广度,这种抽样可能不具代表性。

基准测试落后于研究需求:研究人员有时会发现,现有基准测试未能捕捉到新兴需求。例如,许多链接预测基准测试被发现存在“测试泄漏”或过于简单(例如 WN18 和 FB15k 存在冗余,导致它们可以通过简单的方法解决)。这导致了基准测试的修订(WN18RR、FB15k-237)。同样,早期的 QA 基准测试大多包含简单问题;较新的基准测试则着眼于更复杂的查询(多跳、聚合),以便更好地对系统进行压力测试。创建优秀的基准测试是一项持续不断的努力——例如, ISWC 2023 的LM-KBC 挑战赛引入了语言模型必须协助知识库构建的任务,反映了当前的研究前沿。

集成评估:当知识图谱与机器学习集成时(例如,大型语言模型使用知识图谱),我们如何评估这个组合系统?除非经过精心设计,否则传统的指标可能无法体现知识图谱使用的优势。目前正在进行一些基准测试,专门测试基于知识的生成(例如,大型语言模型+知识图谱的系统是否比单独的大型语言模型更能避免事实错误?)。这些基准测试的设计很复杂,因为它们需要领域专家来判断正确性,而且如果考虑多个知识源,结果可能会比较主观。

总而言之,虽然知识图谱存在各种基准测试(Freebase、DBpedia、Wikidata、YAGO 和特定领域基准测试)和指标(MRR、Hits@N、F1、查询吞吐量等),但必须谨慎解读结果。知识图谱的不完整性和模式差异等因素可能会影响评估结果。目前正在持续完善基准测试,例如,从静态评估转向动态评估,也就是测试系统随着知识图谱的增长而更新的能力,或纳入可解释性指标,也就是系统是否提供了来自知识图谱的论证。随着知识图谱与人工智能的联系日益紧密,评估也将越来越多地考虑端到端的影响:例如,衡量添加知识图谱对人工智能应用程序的实际性能或可信度的提升程度,这也可能涉及用户研究以及技术指标。

相关资讯

迄今为止最大最全面!人类专家级准确性,AI数据驱动的生物医学知识图谱

编辑 | 萝卜皮为了应对生物医学研究中科学出版物和数据的快速增长,知识图谱(KG)已成为整合大量异构数据以实现高效信息检索和自动知识发现的重要工具。 然而,将非结构化的科学文献转化为知识图谱仍然是一项艰巨的挑战,之前的方法无法达到人类水平的准确率。 在最新的研究中,佛罗里达州立大学(Florida State University)和 Insilicom LLC 的研究人员使用了在 LitCoin 自然语言处理挑战赛 (2022) 中获得第一名的信息提取流程,利用所有 PubMed 摘要构建了一个名为 iKraph 的大规模知识图谱。
3/20/2025 2:08:00 PM
ScienceAI

AI问答的核心!知识图谱:突破传统 RAG 的天花板

看似简单的 AI 问答系统,背后却隐藏着无数技术难题。  当我们询问"组件 A 与组件 B 有什么区别"这样的问题时,传统检索增强生成(RAG)系统往往会犯难。 它们就像只会做加法的计算器,遇到了需要乘除法的复杂方程...传统 RAG 的三大痛点传统 RAG 技术已成为 AI 应用的标配,但它面临三个根本性挑战:信息孤岛:文档被切分成互不相关的小块,丢失了上下文联系视野局限:只能基于文本相似度检索,无法理解概念间的逻辑关系推理能力缺失:无法像人类那样进行跨文档的综合分析例如,你问系统:"A组件和B组件有什么区别?
4/8/2025 3:45:00 AM
大数据AI智能圈

知识图谱与其它知识库的关系

知识图谱与传统知识库:解构数据连接的哲学传统企业数据库和知识库长期以来一直被当作信息的仓库,它们好比一个个分隔的抽屉,每个抽屉里都整齐地存放着特定类型的信息。 企业习惯了这种存储方式,却很少思考:我们真的需要将信息放在不同的抽屉里吗? 知识图谱打破了这种传统思维,它将信息视为一张巨大的网络——每条信息都是网络中的一个节点,节点之间通过各种关系连接起来。
4/18/2025 12:49:58 PM
大数据AI智能圈
  • 1