第三章 常用的表格检测鉴别步骤
3.2表格构造鉴别步骤
表格构造鉴别是表格地区检测之后的任务,其目标是鉴别出表格的布局构造、层次构造等,将表格视觉信息转换成可重建表格的构造描述信息。这些表格构造描述信息包括:单元格的具体地位、单元格之间的关系、单元格的行列地位等。
在当前的研究中,表格构造信息主要包括以下两类描述形式:1)单元格的列表(包含每一个单元格的地位、单元格 的行列信息、单元格的实质);2)HTML代码或Latex代码(包含单元格的地位信息,有些也会包含单元格的实质)。
与表格地区检测任务类似,在早期的表格构造鉴别步骤中,研究者们通常会根据数据集特点,设计启发式算法或者运用机器学习步骤来完成表格构造鉴别任务。
Itonori(1993)根据表格中单元格的二维布局的 规律性,运用连通体分析抽取其中的文本块,然后 对每一个文本块举行扩展对齐形成单元格,从而得到 每一个单元格的物理坐标和行列地位。
Rahgozar等人 (1994)则根据行列来举行表格构造的鉴别,其先 鉴别出图片中的文本块,然后按照文本块的地位以及两个单元格中间的空白地区做行的聚类和列的聚类,之后通过行和列的交叉得到每一个单元格的位 置和表格的构造。
Hirayama等人(1995)则从表格线出发,通过平行、垂直等几何分析得到表格的行和列,并运用动态规划匹配的步骤对各个实质块进 行逻辑关系鉴别,来恢复表格的构造。
Zuyev(1997) 运用视觉特征举行表格的鉴别,运用行线和列线以及空白地区举行单元格分隔。该算法已经应用到FineReader OCR产品之中。
Kieninger等人(1998) 提出了T-Recs(Table RECognition System)系统,以 词语地区的框作为输入,并通过聚类和列分解等启 发式步骤,输出各个文本框对应的信息,恢复表格 的构造。随后,其又在此基础上提出了T-Recs++系 统(Kieninger等,2001),进一步提升了鉴别效果。
Amano等人(2001)创新性地引入了文本的语义信息,首先将文档分解为一组框,并将它们半自动地 分为四种类型:空白、插入、指示和解释。然后根据 文档构造语法中定义的语义和几何知识,分析表示 框与其关联条目之间的框关系。
Wang等人(2004) 将表格构造定义为一棵树,提出了一种鉴于优化方 法设计的表构造理解算法。该算法通过对训练集中 的几何分布举行学习来优化参数,得到表格的构造。 同样运用树构造定义表格构造的还有Ishitani等人 (2005),其运用了DOM(Document Object Model) 树来表示表格,从表格的输入图象中提炼单元格特 征。然后对每一个单元格举行分类,鉴别出不规则的 表格,并对其举行修改以形成规则的单元格排布。
Hassan(2007)、Shigarov(2016)等人则以PDF文档为表格鉴别的载体,从PDF文档中反解出表格视 觉信息。后者还提出了一种可配置的启发式步骤框架。
国内的表格构造鉴别研究起步较晚,因此传统的启发式步骤和机器学习步骤较少。
在早期,Liu等 人(1995)提出了表格框线模板步骤,运用表格的 框架线构成框架模板,可以从拓扑上或几何上反映 表格的构造。然后提出相应的项遍历算法来定位和 标记表格中的项。之后Li等人(2012)运用OCR引擎抽取表单中的文本实质和文本地位,运用关键词 来定位表头,然后将表头信息和表的投影信息结合 起来,得到列分隔符和行分隔符来得到表格构造。
总体来说,表格构造鉴别的传统步骤可以归纳为以下四种:鉴于行和列的分隔与后处理,鉴于文本的检测、扩展与后处理,鉴于文本块的分类和后处理,以及几类步骤的融合。
随着神经搜集的兴起,研究人员开始将它们应用于文档布局分析任务中。后来,随着更复杂的架构的发展,更多的工作被放到表列和整体构造鉴别中。
A Zucker提出了一种有效的步骤CluSTi,是一种用于鉴别发票扫描图象中的表格构造的聚类步骤。CluSTi有三个贡献。首先,它运用了一种聚类步骤来消除表格图片中的高噪声。其次,它运用最先进的文本鉴别手艺来提炼所有的文本框。最后,CluSTi运用具有最优参数的水平和垂直聚类手艺将文本框组织成正确的行和列。Z Zhang提出的分隔、嵌入和合并(SEM)是一个准确的表构造鉴别器。M Namysl提出了一种通用的、模块化的表提炼步骤。
E Koci 提出了一种新的步骤来鉴别电子表格中的表格,并在确定每一个单元格的布局角色后构建布局地区。他们运用图形模型表示这些地区之间的空间相互关系。在此基础上,他们提出了删除和填充算法(RAC),这是一种鉴于一组精心选择的标准的表鉴别算法。
SA Siddiqui利用可变形卷积搜集的潜力,提出了一种独特的步骤来分析文档图片中的表格模式。P Riba提出了一种鉴于图的鉴别文档图片中的表格构造的手艺。该步骤也运用地位、上下文和实质类型,而不是原始实质(可鉴别的文本),因此它只是一种构造性感知手艺,不依赖于语言或文本阅读的质量。E Koci运用鉴于遗传的手艺举行图划分,以鉴别与电子表中的表格匹配的图的部分。
SA Siddiqui将构造鉴别问题描述为语义分隔问题。为了分隔行和列,作家采用了完全卷积搜集。假设表构造的一致性的情况下,该步骤引入了预测拼接步骤,降低了表格构造鉴别的复杂性。作家从ImageNet导入预先训练的模型,并运用FCN编码器和解码器的构造模型。当给定图象时,模型创建与原始输入图象大小相同的特征。
SA Khan提出了一个鲁棒的鉴于深度学习的解决方案,用于从文档图片中已鉴别的表格中提炼行和列。表格图片经过预处理,然后运用门控递归单元(GRU)和具有softmax激活的全连接层发送到双向递归神经搜集。SF Rashid提供了一种新的鉴于学习的步骤来鉴别不同文档图片中的表格实质。SR Qasim提出了一种鉴于图搜集的表鉴别架构,作为典型神经搜集的替代方案。S Raja提出了一种鉴别表格构造的步骤,该步骤结合了单元格检测和交互模块来定位单元格,并根据行和列预测它们与其他检测到的单元格的关系。此外,增加了构造限制的损失功能的单元格鉴别作为额外的差异组件。Y Deng 测试了现有的端到端表鉴别的问题,他还强调了在这一领域需要一个更大的数据集。
Y Zou的另一项研究呼吁开发一种利用全卷积搜集的鉴于图象的表格构造鉴别手艺。所示的工作将表格的行、列和单元格划分。所有表格组件的估计边界都通过连接组件分析举行了增强。根据行和列分隔符的地位,然后为每一个单元格分配行和列号。此外,还利用特殊的算法优化单元格边界。
为了鉴别表中的行和列,KA Hashmi [118]提出了一种表构造鉴别的引导手艺。根据本研究,通过运用锚点优化步骤,可以更好地实现行和列的定位。在他们提出的工作中,运用掩模R-CNN和优化的锚点来检测行和列的边界。
另一项分隔表格构造的努力是由W Xue撰写的ReS2TIM论文,它提出了从表格中对句法构造的重建。回归每一个单元格的坐标是这个模型的主要目标。最初运用该新手艺构建了一个可以鉴别表格中每一个单元格的邻居的搜集。本研究给出了一个鉴于距离的加权系统,这将有助于搜集克服与训练相关的类不平衡问题。
C Tensmeyer提出了SPLERGE(Split and Merge),另一种运用扩展卷积的步骤。他们的策略需要运用两种不同的深度学习模型,第一个模型建立了表的网格状布局,第二个模型决定了是否可能在许多行或列上举行进一步的单元格跨度。
Nassar为表格构造提供了一个新的鉴别模型。在两个重要方面增强了PubTabNet端到端深度学习模型中最新的encoder-dual-decoder。首先,作家提供了一种全新的表格单元目标检测解码器。这使得它们可以轻松地访问编程pdf中的表格单元格的实质,而不必训练任何专有的OCR解码器。作家称,这种体系构造的改进使表格实质的提炼更加精确,并使它们能够运用非英语表。第二,鉴于transformer的解码器取代了LSTM解码器。
S Raja提出了一种新的鉴于目标检测的深度模型,它被定制用于快速优化并捕获表格内单元格的自然对齐。即使运用精确的单元格检测,密集的表格鉴别也可能仍然存在问题,因为多行/列跨越单元格使得捕获远程行/列关系变得困难。因此,作家也寻求通过确定一个独特的直线的鉴于图的公式来增强构造鉴别。作家从语义的角度强调了表格中空单元格的相关性。作家建议修改一个很受欢迎的评估标准,以考虑到这些单元格。为了促进这个问题的新观点,然后提供一个中等大的举行了人类认知注释后的评估数据集。
X Shen提出了两个模块,分别称为行聚合(RA)和列聚合(CA)。首先,作家应用了特征切片和平铺,对行和列举行粗略的预测,并解决高容错性的问题。其次,计算信道的attention map,进一步获得行和列信息。为了完成行分隔和列分隔,作家利用RA和CA构建了一个语义分隔搜集,称为行和列聚合搜集(RCANet)。
C Ma提出了一种鉴别表格的构造并从各种不同的文档图片中检测其边界的新步骤。作家建议运用CornerNet作为一种新的地区候选搜集,为fasterR-CNN生成更高质量的候选表格,这大大提高了更快的R-CNN对表格鉴别的定位精度。该步骤只利用最小的ResNet-18骨干搜集。此外,作家提出了一种全新的split-and-merge步骤来鉴别表格构造。该步骤利用一种新的spatial CNN分离线预测模块将每一个检测表格划分为一个单元网格,然后运用一个GridCNN单元合并模块来恢复生成单元格。它们的表格构造鉴别器可以准确地鉴别具有显著空白地区的表格和几何变形(甚至是弯曲的)表格,因为spatial CNN模块可以有效地向整个表图片传输上下文信息。B Xiao假设一个复杂的表格构造可以用一个图来表示,其中顶点和边代表单个单元格以及它们之间的连接。然后,作家设计了一个conditional attention搜集,并将表格构造鉴别问题描述为一个单元格关联分类问题(CATT-Net)。
Jain建议训练一个深度搜集来鉴别表格图片中包含的各种字符对之间的空间关系,以破译表格的构造。作家提供了一个名为TSR-DSAW的端到端pipeline:TSR,通过深度空间的字符联系,它以像HTML这样的构造化格式生成表格图片的数字表示。该手艺首先利用文本检测搜集,如CRAFT,来鉴别输入表图片中的每一个字符。接下来,运用动态规划,创建字符配对。这些字符配对在每一个单独的图象中加下划线,然后交给DenseNet-121分类器,该分类器被训练来鉴别同行、同列、同单元格或无单元格等空间相关性。最后,作家将后处理应用于分类器的输出,以生成HTML表格构造。
H Li将这个问题表述为一个单元格关系提炼的挑战,并提供了T2,一种前沿的两阶段步骤,成功地从数字保存的文本中提炼表格构造。T2提供了一个广泛的概念,即基本连接,准确地代表了单元格之间的直接关系。为了找到复杂的表格构造,它还构建了一个对齐图,并运用了一个消息传递搜集。
实际场景应用中的表格构造鉴别,不仅要同时完成表格检测和构造鉴别,还要对每一个单元格的文本举行鉴别和信息抽取,其流程比以上的研究领域都更为复杂。
参考文献:
Gao L C, Li Y B, Du L, Zhang X P, Zhu Z Y, Lu N, Jin L W, Huang Y S, Tang Z . 2022.A survey on table recognition technology. Journal of Image and Graphics, 27(6): 1898-1917.
M Kasem , A Abdallah, A Berendeyev,E Elkady , M Abdalla, M Mahmouda, M Hamada, D Nurseitovd, I Taj-Eddin.Deep learning for table detection and structure recognition: A survey.arXiv:2211.08469v1 [cs.CV] 15 Nov 2022
S A Siddiqui , M I Malik,S Agne , A Dengel and S Ahmed. DeCNT: Deep Deformable CNN for Table Detection. in IEEE Access, vol.6, pp.74151-74161, [DOI: 10.1109/ACCESS.2018.2880211]
T Shehzadi, K A Hashmi, D Stricker, M Liwicki , and M Z Afzal.Towards End-to-End Semi-Supervised Table Detection with Deformable Transformer.arXiv:2305.02769v2 [cs.CV] 7 May 2023
原创文章,作者:合合信息,如若转载,请注明出处:https://www.iaiol.com/news/24583