常用的表格检测识别法子 – 表格区域检测法子(下)

——书接上文Training      半监视搜集的训练分两步从事:a)对标识数据独立训练学生模块,由教师模块生成伪标签;b)结合两个模块的训练,得到最终的预测结果。伪标

——书接上文

Training

      半监视搜集的训练分两步从事:a)对标识数据独立训练学生模块,由教师模块生成伪标签;b)结合两个模块的训练,得到最终的预测结果。

伪标签框架

应用了一个简单的框架来为教师模块输出处的未标识数据供应伪标签,正如在SSOD中应用的那样。通常,目标检测器为每个供应的边界框bk给出智信分数向量Sλ∈[0,1]Ci。供应伪标签的一个简单法子是只对这些分数从事阈值化。在一个简单的伪标识滤波器中,可以通过为ground truth类Ck的置信值Skck供应一个阈值来形成标识。如果预测值不大于ground truth类的置信值,则认为最高的预测值为伪标签。受DETR的启发,论文将伪标签分配任务作为教师模块预测和生成的半标签之间的双向匹配任务。具体来说,K个元素的排列如下,

常用的表格检测识别法子 - 表格区域检测法子(下)

其中Lmatch(yk,y^(k))是教师标签和真实半标签之间的匹配成本,如下所示:

常用的表格检测识别法子 - 表格区域检测法子(下)

常用的表格检测识别法子 - 表格区域检测法子(下)

常用的表格检测识别法子 - 表格区域检测法子(下)

实行

数据集:

TableBank是文档分析领域中用于表识别问题的第二大数据集。该数据集有417,000个通过arXiv数据库爬虫过程解释。该数据集具有来自三类文档图象的表格:LaTeX图象(253,817)、Word图象(163,417),以及两者的组合(417,234)。它还包括一个用于识别表格的结构的数据集。在论文的实行中,只应用从事表检测的数据。

PubLayNet是一个大型公共数据集,训练集中有335,703张图象,验证集中有11,240张图象,测试集中有11,405张图象。它包括解释,如多边形分割和图形的边界框,列出标题、表格和来自研究论文和文章的图象文本。应用coco分析技术对该数据集从事了评估。在实行中,作者只应用了86,460个表解释中的102,514个。

 DocBank是一个包含5000多个带解释的文档图象的大型数据集,旨在训练和评估诸如文本分类、实体识别和关系提取等任务。它包括标题、作者姓名、隶属关系、摘要、正文等方面的解释。

ICDAR-19:表检测和识别(cTDaR)竞赛于2019年由ICDAR组织。对于表格检测任务(TRACKA),在比赛中引入了两个新的数据集(现代和历史数据集)。为了与之前的最先进的法子从事直接对照,实行供应了在IoU阈值范围为0.5-0.9的现代数据集上的结果。

实行设置细节:实行应用在ImageNet数据集上预先训练的ResNet-50为主干的可变形DETR作为检测框架,以评估半监视法子的有效性。在PubLayNet、ICDAR-19、DocBank和TableBank的三类数据集上从事训练。实行应用10%、30%和50%的标识数据,其余的作为未标识数据。伪标识的阈值设置为0.7。将所有实行的训练周期设置为150,在第120期的学习率降低了0.1倍。应用强增强作为水平翻转,调整大小,去除斑块,裁剪,灰度和高斯模糊。实行应用水平翻转来应用弱增强。可变形DETR解码器输入的query数的值N被设置为30,因为它能给出最好的结果。除非另有说明,实行都应用mAP(AP50:95)度量来评估结果。

常用的表格检测识别法子 - 表格区域检测法子(下)

实行结果讨论:

TableBank:实行供应了对分歧比例的标签数据的表库数据集的所有分割的实行结果。还对照了鉴于transformer的半监视法子与以前的鉴于深度学习的监视和半监视法子。此外,实行给出了10%标识数据的TableBank-both数据集在所有IoU阈值下的结果。表1供应了半监视法子在TableBank-latex, TableBank-word, 和TableBank-both数据集,分别10%、30%和50%标识数据时的实行结果。它表明,在10%标识数据时,TableBank-both数据集的AP50值最高,为95.8%,TableBank-latex为93.5%,TableBank-word有92.5%。

常用的表格检测识别法子 - 表格区域检测法子(下)

表格的半监视学习的定性分析如图5所示。图5的(b)部分有一个与行和列结构相似的矩阵,搜集将该矩阵检测为一个表格,给出false positive检测结果。在这里,不正确的检测结果表明搜集不能供应正确的表格区域检测。表2给出了这种半监视法子对10%标签数据上的所有数据集的分歧IoU阈值的结果。在TableBank10%标识数据集上应用分歧的ResNet-50骨干的半监视搜集的准确率、召回率和f1-score的可视化对照如图6所示。

常用的表格检测识别法子 - 表格区域检测法子(下)

常用的表格检测识别法子 - 表格区域检测法子(下)

常用的表格检测识别法子 - 表格区域检测法子(下)

与以前的监视法子和半监视法子的对照

表3对照了ResNet-50主干上鉴于深度学习的监视搜集和半监视搜集。还将在10%、30%和50%TableBank-both数据集标签数据上训练的监视可变形DETR与应用可变形transformer的半监视法子从事了对照。结果表明,鉴于attention机制的半监视法子应用候选生成过程和后处理步骤,如非最大抑制(NMS),取得了可观的结果。

常用的表格检测识别法子 - 表格区域检测法子(下)

PubLayNet:实行讨论了在PubLayNet表类数据集上对分歧标识数据百分比的实行结果。还对照了鉴于transformer的半监视法子与以前的鉴于深度学习的监视和半监视法子。此外,实行给出了10%标识数据的PubLayNet数据集上的所有IoU阈值的结果。表4供应了半监视法子的结果,该法子对PubLayNet表类数据应用可变形transformer来处理标识数据的分歧百分比。在这里,10%、30%和50%的标识数据的AP50值分别为98.5%、98.8%和98.8%

常用的表格检测识别法子 - 表格区域检测法子(下)

       此外,半监视搜集在10%的标识的PubLayNet数据集上,在分歧的IoU阈值上从事训练。表5给出了半监视法子对10%标识数据上的PubLayNet表类的分歧IoU阈值的结果。在PubLayNet表类的10%标识数据集上,在分歧的IoU阈值上应用具有ResNet-50主干的可变形transformer搜集的半监视搜集的准确率、召回率和f1-score的可视化对照如图6(b)所示。这里,蓝色表示分歧IoU阈值的准确率结果,红色表示分歧IoU阈值的召回结果,绿色表示对分歧IoU阈值的f1-score结果。

常用的表格检测识别法子 - 表格区域检测法子(下)

与以前的监视法子和半监视法子的对照

表6对照了应用ResNet-50骨干网的PubLayNet表类上鉴于深度学习的监视搜集和半监视搜集。还对照了在10%、30%和50%的PubLayNet表类标签数据上训练的有监视的可变形detr与应用可变形transformer的半监视法子。它表明,半监视法子不应用候选和后处理步骤,如非最大抑制(NMS),供应了有竞争力的结果。

常用的表格检测识别法子 - 表格区域检测法子(下)DocBank:实行讨论了在DocBank数据集上的分歧标签百分比数据的实行结果。在表7中对照了鉴于transformer的半监视法子与以前的鉴于cnn的半监视法子。

常用的表格检测识别法子 - 表格区域检测法子(下)此外,还对照了表8中对分歧比例的标识数据的半监视法子与之前针对分歧数据集的表格检测和文档分析法子。虽然不能直接对照作者的半监视法子与以前的监视文档分析法子。然而,可以观察到,即使有50%的标签数据,作者也获得了与以前的监视法子类似的结果。

常用的表格检测识别法子 - 表格区域检测法子(下)

 ICDAR-19: 实行还评估了在Modern Track A数据集上的表格检测法子。作者总结了该法子在分歧百分比的标签数据下的定量结果,并将其与表9中以前的监视表格检测法子从事了对照。在更高的IoU阈值0.8和0.9下评估结果。为了与以前的表格检测法子从事直接对照,作者还在100%的标签数据上评估了论文的法子。论文法子在100%标签数据的IoU阈值上获得了92.6%的准确率和91.3%的召回率。

常用的表格检测识别法子 - 表格区域检测法子(下)

消融实行:

伪标识置信阈值

 阈值(称为置信阈值)在决定生成的伪标签的准确性和数量之间的平衡方面起着重要的作用。随着这个阈值的增加,通过过滤器的样本将会更少,但它们的质量将会更高。相反,较小的阈值将导致更多的样本通过,但false positive的可能性更高。从0.5到0.9的各种阈值的影响如表10所示。根据计算结果,确定最优阈值为0.7。

常用的表格检测识别法子 - 表格区域检测法子(下)

可学习query数量的影响

在分析中,作者研究了改变作为可变形DETR解码器中输入的query数量的影响。图7通过改变作为可变形DETR解码器中输入的对象query的数量来对照预测结果。当query数N设置为30时,达到最佳性能;偏离此值会导致性能下降。表11显示并分析了分歧对象query数量的结果。为N选择一个较小的值可能会导致模型无法识别特定的对象,从而对其性能产生负面影响。另一方面,选择一个较大的N值可能会导致模型由于过拟合而表现不佳,因为它会错误地将某些区域分类为对象。此外,在师生模块中,该半监视自注意机制的训练复杂度依赖于对象query的数量,并通过最小化对象query的数量来降低复杂度而得到提高。

常用的表格检测识别法子 - 表格区域检测法子(下)

结论:本文介绍了一种利用可变形transformer对文档图象从事表格检测的半监视法子。该法子通过将伪标签生成框架集成到一个简化的机制中,减轻了对大规模解释数据的需要,并简化了该过程。同时生成伪标签产生了一个被称为“飞轮效应”的动态过程,随着训练的从事,一个模型不断改进另一个模型产生的伪边框。在该框架中,应用两个分歧的模块学生和教师,对伪类标签和伪边界框从事了改进。这些模块通过EMA功能相互更新,以供应精确的分类和边界框预测。结果表明,当应用于TableBank和PubLayNet训练数据的10%、30%和50%时,该法子的性能超过了监视模型的性能。此外,当对PubLayNet的10%标识数据从事训练时,该模型的性能与当前鉴于cnn的半监视基线相对照。在未来,作者的目标是研究标识数据的比例对最终性能的影响,并开发出以最小数量的标识数据有效运行的模型。此外,作者还打算采用鉴于transformer的半监视学习机制来从事表结构识别任务。

 

参考文献:

Gao L C, Li Y B, Du L, Zhang X P, Zhu Z Y, Lu N, Jin L W, Huang Y S, Tang Z . 2022.A survey on table recognition technology. Journal of Image and Graphics, 27(6): 1898-1917.

M Kasem , A Abdallah, A Berendeyev,E Elkady , M Abdalla, M Mahmouda, M Hamada, D Nurseitovd, I Taj-Eddin.Deep learning for table detection and structure recognition: A survey.arXiv:2211.08469v1 [cs.CV] 15 Nov 2022

S A Siddiqui , M I Malik,S Agne , A Dengel and S Ahmed. DeCNT: Deep Deformable CNN for Table Detection. in IEEE Access, vol.6, pp.74151-74161, [DOI: 10.1109/ACCESS.2018.2880211]

T Shehzadi, K A Hashmi, D Stricker, M Liwicki , and M Z Afzal.Towards End-to-End Semi-Supervised Table Detection with Deformable Transformer.arXiv:2305.02769v2 [cs.CV] 7 May 2023

原创文章,作者:合合信息,如若转载,请注明出处:https://www.iaiol.com/news/26639

(0)
上一篇 2023年5月31日 下午7:03
下一篇 2023年5月31日 下午10:06

相关推荐

发表回复

您的电子邮箱地址不会被公开。 必填项已用*标注