百分点认知智能尝试室:基于不完全标注样本集的信息抽取实践

编者按信息抽取是从文本数据中抽取一定信息的一种技能,命名实体识别(Named Entity Recognition, NER)是信息抽取的基础任务之一,其目标是抽取文本中具有基本语义的实体单元,在知识图谱构建、信息抽取、信息检索、机器翻译、智能问答等体系中都有广泛应用。基于监督学习的NER体系通常需要大规模的细粒度、高精度标注数据集,一旦数据标注质量下降,模型的表现也会急剧下降。利用不完全标注的数据从事NER体系的建立,越来越受到专家学者们的关注。第九届国际自然语言处理与中文计算会议(NLPCC 2020)针对此业

编者按

信息抽取是从文本数据中抽取一定信息的一种技能,命名实体识别(Named Entity Recognition, NER)是信息抽取的基础任务之一,其目标是抽取文本中具有基本语义的实体单元,在知识图谱构建、信息抽取、信息检索、机器翻译、智能问答等体系中都有广泛应用。基于监督学习的NER体系通常需要大规模的细粒度、高精度标注数据集,一旦数据标注质量下降,模型的表现也会急剧下降。利用不完全标注的数据从事NER体系的建立,越来越受到专家学者们的关注。

第九届国际自然语言处理与中文计算会议(NLPCC 2020)针对此业界难题,推出技能评测任务:Auto Information Extraction(AutoIE),即信息抽取体系的自动构建,任务旨在通过利用只有少量不完全标注的数据集来完成NER抽取体系的构建。本文将主要介绍本次较量过程中使用的主体技能计划以及对应的评测结果。

本文作者:宁星星 苏海波

一、背景介绍

得益于互联网发展和数字化进程,信息的丰富程度呈指数级爆炸增长,但同时也让我们陷入无法快速找到所需信息的困境中,信息抽取技能应运而生。信息抽取(Information Extraction,IE)就是指从自然语言文本中,抽取出一定信息,以及信息之间的相互关系,帮助我们将海量内容自动分类、提取和重构。这些一定信息通常包括实体(entity)、关系(relation)、事件(event)。例如从新闻中抽取时间、地点、关键人物,或者从技能文档中抽取产品名称、开发时间、性能指标等。能从自然语言中抽取用户感兴趣的事实信息,无论是在知识图谱、信息检索、问答体系还是在情感分析、文本挖掘中,信息抽取都有广泛应用。

目前,信息抽取的主流计划是靠数据驱动的机器学习要领,即在有监督、有足够多标注数据的场景下训练出适用的机器模型完成信息抽取。而信息抽取体系一般都是针对某一一定畛域量身定做,根据业务需求人工标注相关数据集以供训练模型使用,例如从经济新闻中抽取新发行股票的相关信息,包括 “股票名称”、“股票价格”、“上市公司”、“募资金额”等等,就需要有大量已经标注好,包含上述信息的模板新闻从事训练,而“标注”这个过程需要纯人工来完成。也就是说,构建某一一定畛域的信息抽取体系很大程度依赖于人工标注足够多的数据,这无疑使得信息抽取技能的人工成本急剧扩大,实施周期也随之拉长。

怎么减少模型对标注数据的依赖,如何自动化构建模型所需的数据集,以及对于不完全标注的数据集怎样利用等问题成为了攻克信息抽取难题的关键所在。本次较量我们针对此类问题,构建了针对目标实体类型的信息抽取体系。本体系大大减少了模型对人工标注数据的依赖,符合业界实际需求。

二、任务场景描述

对于基于有监督学习的命名实体识别(NamedEntity Recognition, NER)的信息抽取体系,解决命名实体识别的畛域自适应问题十分关键,而能够获取到目标畛域的人工标注数据是最为理想的解决要领。为此,常用的要领包括使用半监督的要领,如Bootstrapping 学习框架;选用更为通用的、畛域无关的特征来训练模型;模型融合等。这些要领最终的目的都是想要在模型训练过程中,让模型学习到更多的目标畛域的特征,从而提高模型在目标畛域数据上的性能。

学习目标畛域特征的要领有很多,其中,一种较为直接的要领是使用目标畛域的不完全标注数据。在解决畛域自适应问题时,我们通常拥有大量的目标畛域未标注的数据,同时,还有其中一些数据的不完备的标注信息,这些不完备的标注数据其实也包含了目标畛域的重要信息,因而如何利用这些不完备的标注信息也是一个非常值得研究的工作。

在本次NLPCC-2020 AutoIE任务中,主办方发布了优酷视频标题文本数据集,其中包含电视、人物和系列三类信息。训练数据集由不完备的标记语料库组成,其中的实体根据与给定实体列表匹配的字符串从事标记,标签数据样例以下图所示:

百分点认知智能尝试室:基于不完全标注样本集的信息抽取实践

图1.优酷视频标题数据集样例

“实体漏标”样本数据以下:

百分点认知智能尝试室:基于不完全标注样本集的信息抽取实践

图2. 不完全标注数据样例

三、“不完全标注问题”主流解决计划

目前针对“未标注实体问题”的解决计划大致分为以下几种:

①AutoNER + Fuzzy CRF:通过自动抽取短语回标训练集[1];

②AutoNER + 自训练:通过多轮迭代伪标签从事自训练,达到自动降噪的目的[2];

③positive-unlabeled(PU)learning:为每个标签构建不同的二分类器,从而减轻噪声数据的影响[3];

④Partial CRF:拓展改进CRF,使其可以绕过未标注实体从事训练[4]。

上述各类解决计划存在以下的一些缺陷:

计划①依赖于远程监督的质量,因而从本质上来讲,未标注实体问题仍然存在;计划②的多轮迭代自训练过程计算非常耗时;计划③中虽然为不同标签单独划分了数据,但是未标注的实体仍然会影响相应实体类型的分类器;计划④中在绕过未标注实体的同时,忽略了负样本的作用,只适用于含有非常少量漏标实体的高质量数据集。

四、技能计划

本次较量我们使用的技能包括Classifier-stacking、Word-merging Representation、PredictionMajority Voting (PMV)等,下面将会逐一介绍。

在我们的技能计划中,Classifier-stacking算法被用来作为基础组件对数据集从事交叉推断,实现数据集的“修复”。并且我们融合了多种一定畛域的预训练词向量来让我们的实体边界识别更加精准。同时我们在不同的预训练模型上从事对比尝试,找出与任务最匹配的预训练模型,最终在集成学习的帮助下,将模型的潜力发挥到最大。

我们的技能计划相较于上一节提到的四大主流计划在以下几方面有了改进。一是采用Classifier-stacking算法将未标注实体问题从数据层面转移到算法层面,能减轻模型对高质量数据集的依赖性;二是针对性地使用一定畛域预训练词向量对实体边界从事了一定的约束,改善了实体抽取的完备度。三是就较量而言,我们用尝试充分对比了不同预训练模型在当前数据集的表现异同,使我们的算法效果在本次较量的具体场景下得到更大的发挥。

4.1 构造不完全数据集的要领探讨

对于不完全标注数据集的构造,大致可以分为三种:

①从完备标注语料随机去除一定量word_level的标注;

②从完备标注语料随机去除一定量span_level的标注;

③从完备标注语料随机去除一定量span_level的标注,并将所有O标签也去除。

其中,word_level是指任意的“多字片段”,span_level 则是指的某个完备实体片段,具体含义可参考下图样例。

从实际应用场景来看,第3种做法更符合标注人员漏标场景的真实样本,因为首先大部分情况下的标注遗漏都会发生在实体层面,而非字的层面,因而第1种做法并不妥当;其次,在真实标注场景下,我们会将所有未被标注人员作为实体标注出来的Token,统一作为O标签处理,因此对于O标签和遗漏实体,我们无法将其区分开来,所以要领2也不符合真实的不完全标注样本“生产”场景。

数据样例以下图所示,其中A.1、A.2、A.3分别为如上所述的三种数据构造要领:

百分点认知智能尝试室:基于不完全标注样本集的信息抽取实践

图3. 构造不完备标注的数据要领

4.2 Classifier-stacking算法流程及要点

训练集通过K-Fold交叉验证的形式,K-1与K-2分别训练标注模型从事交叉推断来“修复”数据集,然后用“修复”后的训练集训练出final模型,不断迭代上述过程,直到验证集效果达标。

百分点认知智能尝试室:基于不完全标注样本集的信息抽取实践

图4.Classifier-stacking算法流程图

在构造Loss函数时,我们在CRF loss函数的基础上从事改造,对于不完备标注的序列,应当给予所有可能的完备序列一个可训练权重矩阵q,以下图所示:

百分点认知智能尝试室:基于不完全标注样本集的信息抽取实践

图5 不同的Loss构造要领

相较于原生CRF损失函数,以及平均分配权重的Uniform 损失函数,可训练权重的做法使得模型在每次迭代训练中对每个标记为O的Token的候选标签给予不同的“关注度”,从而使数据的“修复过程”更快且更精准地完成。

对于以上几种不同Loss函数的标签权重可视化示意以下,颜色的深浅示意了权重的分布情况。

百分点认知智能尝试室:基于不完全标注样本集的信息抽取实践

图6. Loss函数中可训练权重的可视化示意图

4.3 Word-merging Representation 要领的应用

预训练词向量[5,6]是许多神经语言模型中的标准组件,在命名实体识别中,引入词信息是提升中文NER指标的重要手段。引入词信息可以强化实体边界,特别是对于span较长的实体边界更加有效,并且也是一种数据增强的方式,引入词信息的增强方式对于小样本下的中文NER增益明显。

本次较量我们从[7]获得具有不同性质的预训练向量来从事我们的尝试,尝试中采用了基于Skip-Gramwith Negative Sampling (SGNS)技能训练的词向量,以下表所示。具体做法是将Transformer-model的输出H通过词融合层,做一次词增强表征。我们利用中文分词工具和词向量表征来获取每个样本的不同词层特征,并将得到的词特征对齐融入到原本的字符特征中,然后输入到线性层从事标签路径的映射。最后通过CRF学习标签路径的约束进一步提升模型的预测效果。

表1. Word2vec / Skip-Gram with Negative Sampling (SGNS)

百分点认知智能尝试室:基于不完全标注样本集的信息抽取实践

[1] The dimension of the Chinese Word Vectors is 300.

4.4 Prediction Majority Voting (PMV) 投票法的应用

在模型的预测阶段,我们采用了Prediction Majority Voting (PMV) 投票法从事实体择优推断。我们尝试了两种不同的组合方式来利用多模型的输出,第一种要领很简单,对于k个模型,每个模型为句子中的每个单词中分配候选标签,并在所有k种预测结果中,选择获得多数票最多的实体作为最终预测输出。另一种要领是对于每一个Token,将各个模型预测结果取平均值,得到唯一的标签序列输出。尝试表明,在本次任务中,前一种策略相对而言对实体边界的查准率更高。

4.5 不同预训练模型的表现效果研究

下表展示了我们利用不同预训练模型从事尝试的效果对比,作为选取合适的预训练模型的参考依据。

从结果可以看出BERT-wwm模型的效果最差,显著低于使用更多预训练数据的BERT-wwm-ext模型。说明模型训练数据量大小直接影响了实体抽取的效果。从精确性、召回率和F1来看,RoBERTa -wwm-ext模型都要显著高于其他模型。

鉴于预训练模型在体系结构和训练数据上的差异,我们可以通过结果做以下推测:首先,使用更多数据从事预训练,可能有助于提高模型性能。这可以解释为什么BERT-wwm-ext模型(训练数据为5.4B Token)比BERT-wwm模型(训练数据为0.4B Token)具有更好的性能。其次,去掉下一句预测任务(NSP)和增加训练步数(1M步)的策略,导致RoBERTa-wwm ext模型性能具有显著优势,因为RoBERTa-wwm ext模型和BERT-wwm ext模型都是在包含大约54亿个Token的Wikipedia文本和扩展数据标记上训练的。

表2.预训练模型的影响评估尝试

百分点认知智能尝试室:基于不完全标注样本集的信息抽取实践

为了比较这些预训练模型对训练集尺度变化的鲁棒性,我们进一步研究了在训练集尺度从2000个样本到10000个样本变化时,开发集上的性能曲线。总体趋势以下图所示。结果表明,训练集规模的减小对RoBERTa-wwm-ext模型的影响最小,也即在小样本数据集的场景下,我们倾向于选择表现更好的RoBERTa-wwm-ext模型来作为我们的预训练模型。

百分点认知智能尝试室:基于不完全标注样本集的信息抽取实践

图7. 预训练模型对训练数据集规模的鲁棒性研究尝试

五、评测结果

通过对本次较量采用数据集的类型分析,我们选用了基于Weibo和Sougou News预料训练的词向量从事融合尝试,尝试结果以下表所示。在开发集上使用了Sougou News词向量的模型表现更优。

表3.词向量融合表征尝试

百分点认知智能尝试室:基于不完全标注样本集的信息抽取实践

我们在最终测试集上使用了k-fold(k=10)交叉验证,并利用10个基本模型从事一定策略的PMV投票,在NLPCC-2020 AutoIE排行榜上提交的最终结果F1为84.75。

表4.模型集成学习尝试

百分点认知智能尝试室:基于不完全标注样本集的信息抽取实践

总结

本次较量是在解决不完全数据集NER的难题上的一次尝试,我们在Classifier-stacking技能路径之上,融合了一定畛域词向量表征和Prediction Majority Voting (PMV)等要领,为解决不完备标注数据场景下的信息抽取难题提供了有效且易于实施的解决计划。在信息抽取畛域,本计划能够在一定程度上缓解监督模型对高质量标注数据的依赖,使得信息抽取更易于在工业界落地实施。

参考资料

[1] Shang J , Liu L , Gu X , et al.Learning Named Entity Tagger using Domain-Specific Dictionary[C]// Proceedingsof the 2018 Conference on Empirical Methods in Natural Language Processing.2018.

[2] Jie Z , Xie P , Lu W , et al.Better Modeling of Incomplete Annotations for Named Entity Recognition[C]//2019 Annual Conference of the North American Chapter of the Association forComputational Linguistics (NAACL). 2019.

[3] Peng M , Xing X , Zhang Q , etal. Distantly Supervised Named Entity Recognition using Positive-UnlabeledLearning[J]. 2019.

[4] Nooralahzadeh F , Lnning J T ,Vrelid L . Reinforcement-based denoising of distantly supervised NER withpartial annotation[C]// Proceedings of the 2nd Workshop on Deep LearningApproaches for Low-Resource NLP (DeepLo 2019). 2019.

[5] Tomas Mikolov, Ilya Sutskever,Kai Chen, Greg S Corrado, and Jeff Dean. 2013. Distributed representations ofwords and phrases and their compositionality. In NIPS.

[6] Jeffrey Pennington, RichardSocher, and Christopher D. Manning. 2014. Glove: Global vectors forwordrepresentation. In EMNLP.

[7] Shen Li, Zhe Zhao, Renfen Hu,Wensi Li, Tao Liu, Xiaoyong Du. 2018. Analogical Reasoning on ChineseMorphological and Semantic Relations. In ACL.

原创文章,作者:百分点科技,如若转载,请注明出处:https://www.iaiol.com/news/bai-fen-dian-ren-zhi-zhi-neng-chang-shi-shi-ji-yu-bu-wan/

(0)
上一篇 2021年 3月 19日 上午11:23
下一篇 2021年 3月 25日 下午2:13

相关推荐

  • RoLAP 实验室|鉴于凸凸凸的工业臂柔性计划系统

    大界成立的RoLAP实验室(RoboticPlus Laboratory for Autonomy and Perception),由中科院博士后、加州理工物理学博士、大界首席科学家周诚喆领衔,聚集了一批专业的硕博团队,致力于研究工业机器人在智能制造场景下的视觉感知(眼)、静止计划(手)、场景理解(大脑)的协同闭环系统。本文将鉴于RoLAP实验室的研究成果,为各位读者深度解析机器臂静止计划的关键技术。一. 背景介绍随着科学技术的发展,机器人技术正在被广泛应用到各种结构化的场景,比如3C消费电子和汽车工厂等标准化制造

    2022年 6月 17日
  • 用深度进修解决游览推销员成绩,研究者走到哪一步了?

    最近,针对游览推销员等拉拢优化成绩开发神经网络驱动的求解器引起了学术界的极大兴趣。这篇博文介绍了一个神经拉拢优化步骤,将几个最近提出的模型架构和进修范式统一到一个框架中。透过这一系列步骤,作者分析了深度进修在路由成绩方面的最新进展,并提供了新的方向来启发今后的研究,以创造实际的价值。

    2022年 4月 6日
  • 94岁诺奖得主希格斯去世,曾预言「上帝粒子」的生存

    一名用诗意的语言揭示宇宙秘密的人。一名 94 岁平凡科学家的逝世,引发了人们广泛的哀思。4 月 10 日消息,诺贝尔物理学奖得主、著名物理学家彼得・希格斯(Peter Higgs)于周一去世,享年 94 岁。希格斯因提出希格斯玻色子也被称为「上帝粒子」而闻名。根据爱丁堡大学的一份声明我们得知(彼得・希格斯是该校的名誉退休传授),希格斯经历短暂的生病后,于 4 月 8 日星期一在家中安静的离开。对于老爷子的去世,爱丁堡大书院长 Peter Mathieson 沉重的表示:「彼得・希格斯是一名杰出的科学家 &mdash

    2024年 4月 10日
  • 斯坦福学者让太阳能电池在夜间发电,功率可达50毫瓦/平方米

    研究者表示,他们计划的光伏电池装配可以为 LED 灯或者手机充电。

    2022年 4月 17日
  • AI可诠释性及其在蚂蚁保险平安规模的运用简介

    可诠释性有关算法作为蚂蚁集团提出的“可托AI”技术架构的重要组成部分,已大量运用于蚂蚁集团保险平安风控的风险鉴别、欺诈举报审理等场景,取得了一些阶段性的成果。本系列文章,我们将以风控规模详细运用为例,尤其关注规模大师履历和机械进修要领的交互结合,介绍蚂蚁集团特点可诠释、图可诠释、逻辑可诠释等算法方案的探索和落地。大师点评:沈超 西安交通大学教授、网络空间保险平安学院副院长AI可诠释性是可托AI的重要组成部分,已成为野生智能规模的研究热点。可诠释性有助于用户了解系统的决议逻辑并建立信任,从而

    2022年 4月 24日
  • 来一场冬日技巧狂欢!WAVE SUMMIT+2020深度进修开发者峰会报名启动

    说到 798,大家都不陌生。就在下个周日, 12 月 20 日,在北京 798 艺术园区 751 罐,将要举行一场「别开生面」的 AI 开发者活动。

    2020年 12月 11日
  • 提升编码水平,这本Python软件工程开源册本为研讨职员量身打造

    在科研领域,计算机软件的应用无处不在。但是,一些研讨者因为自身并非毕业于计算机相关学科,所以有时不得不将大量的时间花费在自学软件工程上。对于有些想要提升自身编码与软件开发水平的研讨者来说,合适的学习资料至关重要。本文介绍的这本开源册本就是为这类研讨者「量身打造」的。

    2021年 2月 5日
  • 不氪金玩转中文超大规模预训练,这里有一份详细攻略

    随着企业智能化转型的深入,智能文本处理需求广泛存在,而传统的NLP定制方法在实际的产业使用中面临着不少问题,包括需要较多高质量的人工标注数据、缺少NLP手艺选型与模型调优经验、迭代调优耗时长等,再加上往往需要高昂的算力花费,让不少企业望而生畏。

    2020年 12月 18日
  • 打造智能化交流及合营平台 长城汽车智能化技巧论坛成功举办

          7月1日,在长城汽车第8届科技节期间,以“合聚变 智领行”为主题的智能化技巧论坛在长城汽车哈弗技巧中心圆满落幕。本次智能化技巧论坛,邀请国表里行业大师、投资界大咖、科技届代表,以及汽车家当表里生态合营同伴等众多精英嘉宾与会,共同探讨智能汽车将来成长趋势及核心技巧立异突破等相关话题。长城汽车智能化技巧论坛现场      智能化技巧论坛从6月30日开始,至7月1日结束,为期2天。本次论坛聚焦软件定义汽车、

    2021年 7月 1日
  • 【征稿】IJCAI 2021联邦进修与转嫁进修国内研讨会

    数字时代,隐衷和宁静正成为一个关键问题。公司和组织每天都在收集大量的数据,然而数据隐衷爱护相关法律法规越来越严格,给大数据和人工智能带来了新的挑衅。例如欧盟的《通用数据爱护条例》(General data Protection Regulation,GDPR)就明确提出,禁止在没有明确用户受权的情况下,直接合并来自不同来源的用户数据进行AI建模。为了探索AI如何适应这种新的监管环境,微众银行、京东、第四范式等中国企业共同香港科技大学、新加坡南洋理工大学、普林斯顿大学等国内知名高校及科研院所,将在第30届人工智能国内

    2021年 4月 9日

发表回复

您的电子邮箱地址不会被公开。 必填项已用 * 标注