【技术白皮书】第五章:信息抽取技术的未来发展趋势和面临的应战

5.信息抽取技术的未来发展趋势和面临的应战5.1NER技术的未来发展趋势和面临的应战论文《Survey on Deep Learning for Named Entity Recognition》总结

5.信息抽取技术的未来发展趋势和面临的应战

5.1NER技术的未来发展趋势和面临的应战

论文《Survey on Deep Learning for Named Entity Recognition》总结了NER技术面临的应战和未来发展方向。随着建模语言的进步和实际应用的需求,NER会得到研讨人员更多的关注。另一方面,NER通常被视为下游应用程序的预处理组件。这意味着一定的NER义务由下游应用程序的需求定义,例如,定名实体的典型以及是否需要检测嵌套实体。以下是NER研讨的以下进一步探索方向。

1.细粒度NER和边界检测。

虽然许多现有研讨(《Neural architectures for named entity recognition》、《End-to-end sequence labeling via bidirectional lstm-cnns-crf》、《Robust lexical features for improved neural network named-entity recognition》)都集中在一般规模的粗粒度NER上,但论文期望在一定规模对细粒度NER进行更多研讨,以支持各种实际的word应用(《Software-specific named entity recognition in software engineering social content》)。细粒度NER面临的应战是定名实体典型的显著增加,以及允许一个定名实体具有多个定名实体典型所带来的复杂性。这需要重新访问常见的NER要领,其中实体边界和典型同时被检测,例如,通过使用B-I-E-S-(实体典型)和O作为解码标签。值得考虑的是,将定名实体边界检测定义为一项专用义务,以检测定名实体边界,同时忽略定名实体典型。边界检测和定名实体典型分类的解耦实现了边界检测的通用和鲁棒的解决方案,这些解决方案可以在不同规模共享,并为定名实体典型分类提供了专用的规模一定要领。正确的实体边界还能有效地缓解实体链接到知识库中的错误传播。已经有一些研讨,认为实体边界检测是NER中的中间步骤(即子义务)。据论文所知,目前还没有专门针对实体边界检测的工作来提供一个鲁棒的识别器。论文期待着在未来这一研讨方向的突破。

2.联合NER和实体链接。

实体链接(EL)也称为定名实体规范化或消歧,旨在参考知识库为文本中提到的实体分配唯一身份,例如通用规模的维基百科和生物医学规模的统一医学语言系统(UMLS)。大多数现有工作将NER和EL单独作为流水线(pipeline)设置中的两个独立义务来解决。论文认为,成功链接的实体(例如,通过知识库中的相关实体)所携带的语义显著丰富。也就是说,链接实体有助于成功检测实体边界和正确分类实体典型。值得探索联合执行NER和EL,甚至实体边界检测、实体典型分类和实体链接的要领,以便每个子义务都能从其他子义务的部分输出中受益,并减少流水线(pipeline)设置中不可避免的错误传播。

3.有辅助资源的非正式文本上鉴于DL的NER

鉴于非正式文本或用户生成内容的DL-NER的性能仍然很低。这需要在这方面进行更多的研讨。特别是,论文注意到,NER的性能显著受益于辅助资源的可用性,例如用户语言中的位置名称词典。虽然没有提供强有力的证据表明,涉及地名词典,作为额外的特征可以导致NER在通用规模的性能提升,但论文认为辅助资源往往是必要的,以更好地了解用户生成的内容。问题是如何为用户生成的内容或一定规模的文本上的NER义务获取匹配的辅助资源,以及如何有效地将辅助资源合并到鉴于深度进修的NER中。

4.鉴于DL的NER的可伸缩性。

使神经网络模型更具可伸缩性仍然是一个应战。此外,当数据量增加时,仍然需要优化参数指数增长的解决方案(《A review on deep learning forrecommendersystems:challenges and remedies》)。一些鉴于DL的NER模型以巨大的计算能力为代价取得了良好的性能。例如,ELMo表示用3×1024维向量表示每个单词,模型在32个GPU上训练了5周(《Contextual string embeddings for sequence labeling》)。Google BERT表示在64个云TPU上进行训练。然而,如果终端用户无法访问强大的计算资源,他们就无法对这些模型进行微调。开发平衡模型复杂性和可伸缩性的要领将是一个有前途的方向。另一方面,模型压缩和剪枝技术也可以用来减少模型进修所需的空间和计算时间。

5.NER的深度迁移进修。

许多以实体为中心的应用程序求助于现成的NER系统来识别定名实体。然而,由于语言特征的差异以及注释的差异,在一个数据集上训练的模型可能无法在其他文本上很好地工作。尽管有一些研讨将深度迁移进修应用于NER,但这个问题尚未得到充分探讨。未来应致力于如何通过探索以下研讨问题,有效地将知识从一个规模转移到另一个规模:(a)开发一个能够跨不同规模工作的鲁棒识别器;(b) 探索NER义务中的zero-shot, one-shot 和 few-shot learning;(c) 提供解决跨域设置中的域不匹配和标签不匹配的解决方案。

6.一个易于使用的工具包,用于鉴于DL的NER。

最近,Röder等人开发了GERBIL(《GERBIL – benchmarking named entity recognition and linking consistently》),它为研讨人员、最终用户和开发人员提供了易于使用的界面,用于对实体注释工具进行基准测试,目的是确保可重复和可架构的实验。然而,它不涉及最新的鉴于DL的技术。Ott介绍了FAIRSEQ(《fairseq: A fast, extensible toolkit for sequence modeling》),这是一个快速、可扩展的序列建模工具包,特别是用于机器翻译和文本描述。Dernoncourt等人实现了一个名为NeuroNER的框架(《NeuroNER: an easy-to-use program for named-entity recognition based on neural networks》),它只依赖于循环神经网络的一个变体。近年来,许多深度进修框架(例如TensorFlow、PyTorch和Keras)被设计为通过高级编程接口为设计、训练和验证深度神经网络提供建立模块。论文设想,一个易于使用的NER工具包可以指导开发人员使用一些标准化模块来完成它:数据处理、输入表示、上下文编码器、标记解码器和有效性度量。论文相信,专家和非专家都可以从这些工具包中受益。

7.数据标注。

受监督的NER系统,包括鉴于深度进修的NER,在训练中需要大量带标注的数据。然而,数据标注非常耗时和昂贵。对于许多资源匮乏的语言和一定规模来说,这是一个巨大的应战,因为需要相关规模专家来执行数据标注的义务。

由于语言的模糊性,标注的质量和一致性都是主要问题。例如,同一个定名实体可以用不同的典型进行注释。例如,““Baltimore defeated the Yankees”一句中的“Baltimore”,在MUC-7中被标记为位置,在CoNLL03中被标记为组织。在CoNLL03和ACE数据集中,“Empire State ”和“Empire State Building”都被标记为位置,导致实体边界混乱。由于数据标注的不一致性,即使两个数据集中的文档来自同一个域,在一个数据集中训练的模型在另一个数据集中也可能无法很好地工作。

为了使数据注释更加复杂,Katiyar和Cardie(《Nested named entity recognition revisited》)报告说嵌套实体相当常见:GENIA语料库中17%的实体嵌入到另一个实体中;在ACE语料库中,30%的句子包含嵌套实体。需要开发适用于嵌套实体和细粒度实体的通用注释方案,其中一个定名实体可以被分配多种典型。

8.非正式文本和没见过的实体。

正式文件(如新闻文章)的数据集报告了不错的结果。然而,在用户生成的文本上,最佳准确率分数略高于40%。非正式文本(如推文、评论、用户论坛)的NER比正式文本更具应战性,因为其简短并有噪声。许多用户生成的文本也是一定规模的。在许多应用场景中,NER系统必须处理用户生成的文本,例如电子商务和银行中的客户支持。评估NER系统的鲁棒性和有效性的另一个有趣维度是,它能够在新出现的文本中识别不寻常的、以前没见过的实体。

5.2实体干系抽取技术的未来发展趋势和面临的应战

在北京林业大学的论文《实体干系抽取要领研讨综述》中提出:目前,实体干系抽取技术日渐成熟,但依然需要研讨人员投入大量精力进行不断探索,通过对现有实体干系抽取研讨工作进行总结,在以后的研讨中可以从5个方面展开相关的研讨。

1.从二元干系抽取到多元干系抽取的转化。

当前的干系抽取系统主要集中在2个实体之间的二元干系抽取,但并非所有的干系都是二元的,如有些干系实例需要考虑时间和地点等信息,所以会考虑更多的论元。目前已有相关论文提出针对多元干系抽取的要领,但该要领与二元干系抽取模型相比,在准确率和召回率上仍有较大的差距。如何根据上下文信息,识别跨越句子的多元实体干系,提高干系抽取的准确率和智能化,这促使研讨者不断投入更多的精力。

2.开放规模的实体干系抽取的深入研讨。

目前的研讨工作大多面向一定的干系典型或者一定规模,而使用一定的语料库,很难做到其他规模的自动迁移。虽然,一些研讨者针对开放规模的干系抽取进行了研讨,提出了一系列的要领用于实体干系抽取,然而这类要领和一定规模相比仍有一定的差距。如何不断提高系统的准确率、可移植性以及可扩展性,这都激励着研讨人员投入更多的精力和时间,促进开放规模的实体干系抽取的发展。

3.远程监督干系抽取要领得到不断改进。

目前,由于远程监督的要领仍然存在错误标签和误差传播2个主要问题,研讨者多是鉴于这些问题对深度进修的干系抽取模型加以改进。为了避免产生过多的错误标签,人们主要采用多示例、注意力机制的要领等要领减少噪音数据。目前已有相关要领融合增强进修和远程监督要领的优点,不断地减少错误标签,进而降低负类数据对干系抽取模型的影响。针对误差传播的问题,研讨者多是对句子的语义信息进行深入挖掘,而对句子语法信息却少有涉及。如何有效地解决远程监督产生的错误标签和误差传播,如何有效地融合语法和语义信息,这些问题将激励着研讨者不断改进相关算法,不断提高深度进修要领的性能。

4.深度进修有监督要领的性能提升。

近年来,越来越多的研讨人员关注于联合进修和鉴于图结构的抽取要领。联合进修将定名实体识别和干系抽取作为一个义务,减少了错误信息的积累和传播,也减少了冗余信息对模型的影响。而针对干系重叠和实体间潜在特征等问题,鉴于图结构的抽取要领提供了一些新的思路。然而这2种要领的性能还需进一步改进,不断促进信息抽取规模的发展。

5.工业级实体干系抽取系统的继续研发。

干系抽取现已被广泛应用于智能搜索、智能问答、个性化推荐、内容分发、权限管理,人力资源管理等规模。通过对学术研讨和市场需求进行深入地融合,不断提高实体干系抽取的可靠性、置信度、执行效率等,促进干系抽取模型的性能进一步得到提升,为人们的生活提供更多便利。

5.3事变抽取技术的未来发展趋势和面临的应战

在文本挖掘中,事变提炼是一项重要且具有应战性的义务,它主要从描述事变的相关文本中进修事变的结构化表示。事变提炼主要分为两个子义务:事变检测和参数提炼。事变抽取的核心是识别文本中与事变相关的词,并将其分类。鉴于深度进修模型的事变提炼要领自动提炼特征,避免了手工设计特征的繁琐工作。事变提炼义务被构造为一个端到端系统,使用具有丰富语言特征的词向量作为输入,以减少底层NLP工具造成的错误。以前的要领侧重于研讨有效特征,以获取候选触发器、候选参数的词汇、句法和语义信息。此外,他们还探讨了触发器和与同一触发器相关的多个实体之间的依赖干系,以及与同一实体相关的多个触发器之间的干系。根据事变提炼的特点和目前的研讨现状,论文总结了以下技术应战。

事变抽取语料库面临的应战

1.事变提炼数据集建立。

事变提炼义务复杂,现有的预训练模型缺乏对事变提炼义务的进修。现有的事变提炼数据集只有少量的标记数据,手工标注事变提炼数据集的时间成本较高。因此,建立大规模事变提炼数据集或设计自动建立事变提炼数据集也是未来的研讨趋势。

2.新的数据集。

事变提炼的数据集很小。深度进修结合外部资源,建立大规模数据集,取得了良好的效果。由于标记数据集的建立困难,且数据集规模较小,如何更好地利用深度进修,借助外部资源有效地提炼事变,也是一个迫切的研讨方向。

3.事变提炼模式。

事变提炼要领可分为封闭域事变提炼要领和开放域事变提炼要领。没有模式的事变提炼要领的效果很难评估,鉴于模板的事变提炼要领需要根据不同的事变典型设计不同的事变模式。因此,如何设计一个通用的事变抽取鉴于事变特征的模式是克服建立事变抽取数据集和类间知识共享困难的重要手段。

事变提炼模型的应战

1.依赖进修。

目前,鉴于BERT的事变提炼要领已经成为主流。然而,事变提炼不同于训练前由BERT模型进修的义务。参数提炼需要考虑事变参数角色之间的干系,以提炼同一事变典型下的不同角色。它需要事变提炼模型来进修文本的语法依赖干系。因此,建立事变参数之间的依赖干系是全面、准确地提炼每种事变典型的参数亟待解决的问题。

2.端到端进修模型。

与传统要领相比,鉴于联合模型的深度进修要领的优势在于联合表示形式。事变提炼取决于实体的标签。因此,本文认为,建立鉴于深度进修的端到端自主进修模型是一个值得研讨和探索的方向,如何设计多义务多联动的进修模型是一个重大应战。

3.多事变提炼。

根据事变提炼的粒度不同,事变提炼可分为句子级事变提炼和文档级事变提炼。关于句子级事变抽取的研讨已经很多。然而,文档级事变提炼仍处于探索阶段,文档级事变提炼更接近实际应用。因此,如何设计文本的多事变抽取要领具有重要的研讨意义。

4.域事变提炼。

域文本通常包含大量的技术术语,这增加了域事变提炼的难度。因此,如何设计有效的要领来理解规模文本中深层的语义信息和上下文对应干系已成为亟待解决的问题。

参考文献:

Jing Li, Aixin Sun, Jianglei Han, and Chenliang Li,“A Survey on Deep Learning forNamed Entity Recognition,”IEEE TRANSACTIONS ON KNOWLEDGE AND DATA ENGINEERING, 2020

李冬梅,张扬,李东远,林丹琼 .实体干系抽取要领研讨综述[J].计算机研讨与发展,2020,57(7)

Qian Li, Jianxin Li, Jiawei Sheng, Shiyao Cui, Jia Wu,Yiming Hei, Hao Peng,Shu Guo, Lihong Wang, Amin Beheshti, and Philip S ,“A Compact Survey on Event Extraction:Approaches and Applications,“ IEEE TRANSACTIONS ON NEURAL NETWORKS AND LEARNING SYSTEMS, VOL. 14, NO. 9, NOVEMBER 2021

原创文章,作者:合合信息,如若转载,请注明出处:https://www.iaiol.com/news/30222

(0)
上一篇 2023年4月21日 上午8:37
下一篇 2023年4月21日 上午9:39

相关推荐

发表回复

您的电子邮箱地址不会被公开。 必填项已用*标注