本文简要介绍SIGGRAPH 2022录用论文“Learning From Documents in the Wild to Improve Document Unwarping”的主要工作。该论文提出一个文档图像校正方法PaperEdge,训练过程能同时利用合成数据以及真实数据,此外还提出了一个更加鲁邦的评价指标Aligned Distortion(AD)以及一个带有文档区域Mask标注的真实场景下的文档图像数据集。
一、研究背景
文档图像校正在文档数字化以及文档分析中都十分重要。现有的SOTA方案基本都是基于合成数据训练的深度学习方法,导致模型在真实数据上测试时的泛化能力不足,影响矫正性能。因此本文提出在模型训练阶段引入真实数据,以此提升模型的矫正性能。为了用真实数据进行训练,本文提出了DIW(Document-in-the-Wild)数据集,包含5000张带有文档区域Mask标注的真实场景文档图像。本文提出的PaperEdge方法可以基于DIW数据集进行弱监督的训练。此外,考虑到现有的评价指标存在对微小变化过于敏感以及在无纹理区域存在较大误差等问题,本文提出一个更加鲁邦的评价指标AD。
二、方法原理简述
Enet: Edge-based Unwarping。Enet采用全卷积的Encoder-decoder结构,输入为含有形变的文档图像,输出为2维的形变场
。基于合成数据强监督训练的损失函数:
其中
为形变场的GT(Ground Truth),由于Enet只根据图像的边缘信息进行矫正,所以优化目标只需要考虑图像边缘,形变场的损失函数只计算涉及图像边缘的部分,上述公式中的B函数即用来提取该部分,前向预测时其余部分的形变场则根据边缘部分插值得到。
结合图3示意图所示,作者借助输入形变图的文档区域Mask(y)设计了该弱监督训练方式:预测得到的
在y上采样应该得到全为True的Mask(m),即上述损失函数的第一项;同时,
对应的反向形变场在
上m采样应该可以重新得到,即上述损失函数的第二项。
结合图4示意图所示,自监督训练的设计基于这样一个先验假设:形变不同、内容相同的图像矫正后应该是一致的平整图。因此作者在预测得到(以
为输入)后,对
施加一个随机的形变场,得到形变不同
、内容相同的
,根据
预测得到
。根据前述先验假设,
应失函数
。此外,为了训练过程能更好收敛,作者还做了一些等价变换,
可等价转化为:
其中,为了缓解GT和矫正图之间存在的全局差异,AD先进行了一个仿射变换(Affine Transformation),仿射变换参数的获得基于:
三、主要实验结果及可视化结果
图5 MS-SSIM,LD和AD指标的分析对比
表1 不同模块以及不同训练方式的消融实验
表2 本文方法与现有方法在DocUNet数据集上的定量比较结果,其中和
分别为未用以及使用真实数据的结果
从图5可以看出,AD相比于MS-SSIM更符合视觉直观,对于视觉上细微的差异不会产生大的指标变化;相比LD则可以减轻无纹理区域带来的误差。从图6和表1可以看出Enet和Tnet两个模块的有效性,以及真实数据弱监督以及自监督的带来的提升。从表2和图7可以看出本文方法对比现有方法的优越性。从图8可以看出Tnet可以处理一些不完整的文档图像。
四、总结及讨论
该论文创新性地提出了一种文档图像矫正方法,PaperEdge。可以同时利用合成数据和真实数据进行训练。同时还提出了一个新的评价指标AD,缓解了现有评价指标MS-SSIM和LD存在的问题。此外还提出了DIW数据集,包含真实文档图像以及对应的文档区域Mask标注。PaperEdge同时还能处理非完整的文档图像,相比现有方法更加灵活。
五、相关资源
原文作者: Ke Ma, Sagnik Das, Zhixin Shu, Dimitris Samaras
免责声明:(1)本文仅代表撰稿者观点,撰稿者不一定是原文作者,其个人理解及总结不一定准确及全面,论文完整思想及论点应以原论文为准。(2)本文观点不代表本公众号立场。
往期精彩内容回顾