一、背景
电子文档由于更容易存档、编辑、签名和共享,越来越多的文档需电子化,随着高质量摄像头在手机等挪动设置装备摆设上的普及,应用挪动设置装备摆设对文档从事数字化采集已经非常普遍。通过图象勘正与图象质量提升,挪动设置装备摆设采集的文档图象质量甚至可以与专用的文档扫描仪相当。然而,文档总是由于纸张多少形状和捕获条件不受控制而形变。这阻碍了形变图象的信息提取,降低可读性,对数据增强和下游任务如OCR识别、版面分析与还原等任务增加难度。
二、法子概述
为解决文档笔直改进问题,学术界已有多种方案。一类是应用多目相机,结构光或者激光雷达等设置装备摆设对文档从事扫描,获得文档表面的3D结构信息,进而对文档勘正展平。这类法子一般可以获得比较好的勘正效果,但依赖专用设置装备摆设的特点限制了其使用场景。
还有一类是应用显式的多少模型以适应形变文档曲面,这类法子完全依靠图象信息以及文档形变的先验知识对图象从事勘正。这类法子一般需要从事文字行或者表格线的检测,并假设曲面符合特定的多少约束,如曲面是柱面。这类法子可以在普通的挪动设置装备摆设上兑现,但是其勘正效果受文字行检测准确度的限制,对文档版式比较敏感,无法处理存在大量图表的文档,且误检的文字行有可能会对勘正造成严重干扰。
还有一类基于优化的法子,应用损失函数缓慢迭代优化以获得形变改进结果,但时间较长不适合实时应用。
最近,数据驱动的法子已经流行起来。 这些法子训练一个 形变改进神经搜集,学习形变场,从而获得类似扫描的结果。 这样的搜集可以兑现实时改进。Das等人使用 CNN 检测文档的折痕并从事分割文件分成多个块从事改进。 Xing等人 应用CNN估计文档变形和相机姿态以从事勘正。 Ramanna等人通过应用 pix2pixhd 搜集去除文档的卷曲和多少失真。 然而,这些法子仅适用于简单变形和单调背景。 Ma等人 提出了一个堆叠的 U-Net,它经过训练端到端预测翘曲的前向映射。 由于天生的数据集与真实世界的图象有很大不同,[15] 对其从事了训练在真实世界的图象上测试时,数据集的泛化能力较差。Das等人认为当合成训练数据集仅使用 2D 变形从事训练时,笔直改进模型并不总是表现良好,因此他们创建了一个 Doc3D 数据集,该数据集具有多种类型的像素级文档图象偏移场,同时使用真实世界文档和渲染软件。同时,提出了一种去扭曲搜集和细化搜集来勘正文档图象的多少和阴影。李等人 在 3D 空间中天生训练数据集,并使用渲染引擎获得更精细、更逼真的失真文档图象细节。他们提出了基于图象块(patch)的学习法子,并通过在梯度域中的处理将patch结果拼接到勘正后的文档中,以及用于去除阴影的光照勘正搜集。与之前的法子相比,这些文献更关心天生的训练数据集和真实世界测试数据集之间的差异,并专注于天生更真实的训练数据集以提高真实世界图象的泛化能力。尽管这些结果令人惊叹,但深度神经搜集的学习和表达能力并未获得充分探索。
二、合合方案
我们将笔直改进问题定义如下:
其中u 是形变场,S(Source)是笔直图,T(Target)是平整图。一个理想的空间转换(spatial transformation)需要有两个衡量标准,及相似度和正则项,一方面我们期望笔直样本转换后与目标(平整样本)越相似越好,图象相似性有很多种标准,常见的有相关系数(Correlation Coefficient, CC)、归一化的相关系数(NCC)、互信息(Mutual Information, MI)、均方误差(MSE)等。另一方面,我们也希望这个转换是空间上平滑且连续的,这样能保证转换遵循物理模型,存在连续可逆的转换,使得我们的转换在数据合成等方面有更广泛的应用。和相似度损失函数类似,正则项在搜集里也有多种兑现方式,一种是通过对位移场直接从事空间梯度惩罚,一种则是通过对速率场从事约束后再通过积分层获得最终形变场,还有一种则是在训练过程中通过循环损失函数来兑现。
形变改进搜集可以是encoder-decoder类似结构,由于惩罚项如果直接施加在位移场上,大位移场景模型的改进能力就会降低,有方案通过多次迭代改进过程位移场来兑现大形变。
我们则参考配准中的流模型(fluid model),用速率场来建模形变场,并通过积分层来兑现最终的形变场。事实上,位移场也可以被视作是轨迹固定的流场(直线)。 对于不同的正则项, 在大部分情况下,直线轨迹并不是最优解。直线轨迹获得的正则项的值很多情况下会更大点。 作为对比,引入速率场在这种情形下兑现了更多的自由度。 如果你对这一块感到困惑,可以想象连接世界地图上两个地方的最短路径, 大部分情况下都不是直线 [Ref]。速率场求解可转换为如下问题,其中L是对速率场施加的正则项。
空间转换搜集一开始提出时只是简单用作仿射转换等,后来采用了采样网格的方式使得它功能更加强大。对于大小为[W, H]的二维图象来说,其位移场大小为[W, H, 2]。位移场表示每个像素在各个方向(x,y轴)的位移。空间转换搜集会根据位移场天生一个归一化后的采样网格,然后用该搜集对图象从事采样,就获得了改进后的图象。
原创文章,作者:合合信息,如若转载,请注明出处:https://www.iaiol.com/news/20561