本文简要介绍ACM MM 2022录用论文“Marior: Margin Removal and Iterative Content Rectification for Document Dewarping in the Wild”的主要工作。该论文针对现有的矫正方法只能在紧密裁剪的文档图像上获得较为理想的矫正效果这一不足,提出了一个新的矫正方法Marior。Marior采用渐进式的矫正方式来逐步提高矫正性能。具体而言:先利用分割结果进行环境边缘去除获得初步矫正结果,再通过预测偏移场迭代式地优化该初步结果。该方法在公开数据集上取得了SOTA的结果,矫正结果数据已开源。
图1 现有矫正方法存在不足的情况. (a) 文档图像中存在大的环境边界 (b) 文档图像中不存在环境边界. 红色虚线高亮突出显示了部分形变的区域.
一、研究背景
二、方法原理简述
图2 整体流程图
图2是该论文整体流程图:含有形变的文档图像首先输入到边界去除模块(MRM),该模块根据神经网络预测得到文档区域Mask去除掉环境边界得到初步矫正结果
。迭代式内容矫正模块(ICRM)以初步矫正结果
为输入,预测输出2维的偏移场,根据偏移场进行进一步矫正得到
,将
当作
再次矫正可以进一步提升矫正性能,迭代次数则可以自适应确定。
2.1 边界去除模块(MRM)
Mask预测:如图3所示。在DeepLabv3+的基础上增加一个边缘输出分支更好地指导网络学习。此外,考虑到文档图像的Mask有相对固定的模式(一个完整的连通域,接近四边形,相对直的边缘等),本文利用GAN将这种先验引入到模型当中。
图3 (a)Mask预测网络的结构;(b)引入先验信息的效果,可以看到先验信息的引入可以获得更好的Mask.
Mask-based Dewarper(MBD):如图4示意图所示,以形变图像和预测的Mask
作为输入,MBD输出去除边界后的初步矫正图
。根据预测的Mask,MBD先定位出4个角点并进行排序(确定左上,右上,左下,右下),然后根据4个角点选取4边上的等分点(本文中每条边进行4等分)。所有的角点和等分点构成控制点,分别对应到矩形上相应位置的参考点上。根据这些点对,对
进行TPS变换即可得到
。对于没有环境边界的文档图像,则跳过TPS变换,直接将
输出为
,这类图像的
往往含有较多噪声,和由控制点得到的Mask之间的IoU通常较低,可以通过设置该IoU的阈值过滤出这类图像。
图4 Mask-based Dewarper(MBD)示意图,输入和
,输出
2.2 迭代式内容矫正模块(ICRM)
通过边界除去模块(MRM)得到的初步矫正图仍然含有形变,文中采用ICRM来进一步矫正
,损失函数采用内容加权的L2 Loss以及Shift Invariant Loss。如图5所示,偏移场预测网络网络以
为输入,预测输出2维的偏移场,但是经过一次矫正后形变仍然存在,可以将矫正结果作为输入进行迭代式矫正,从而取得更好的矫正效果;迭代完成后将所有的偏移场相加得到最终的偏移场
,根据
采样可以得到最终的矫正结果
。迭代次数根据偏移场算法1进行自适应确定。
三、主要实验结果及可视化结果
表1 Mask预测模型有效性
表2 内容加权的L2 Loss 的有效性
表3 在DocUNet数据集上的定量比较. 为公平比较,除Marior外,其余方法在Origin子集(没有经过紧密裁剪,仍含有大环境边界的文档图像)上测试时先加入了一个文档检测器进行裁剪.
表4 在OCR_REAL数据集上的定量比较.
图7 在DocUNet数据集上的定性比较.由上到下分别为 (a) Input, (b) DocProj, (c) DewarpNet, (d)Method of Xie et al., (e) Marior (ours), and (f) Scanned Ground Truth. 其中1-3列是紧密裁剪的文档图像,4-5列是含有大环境边界的文档图像(除Marior外其余方法都先才采用检测器进行裁剪),6-7列是不包含环境边界的文档图像.
图8 与PiecewiseUnwarp和DocTr在DocUNet数据集上的定性比较. (a)从左到右分别为Input, PiecewiseUnwarp, Marior (ours)和Scanned Ground Truth. (b)从左到右分别为Input, DocTr, Marior (Ours)和Scanned Ground Truth.
图9 从左到右分别为(a) Input, (b) DocProj, (c) DocTr, and (d) Marior (Ours).
四、总结及讨论
五、相关资源
Marior: Document Dewarping with Control Points Document Dewarping with Control Points论文地址: https://arxiv.org/abs/2207.11515
原文作者:Jiaxin Zhang, Canjie Luo, Lianwen Jin, Fengjun Guo, Kai Ding
撰稿:张家鑫
免责声明:(1)本文仅代表撰稿者观点,撰稿者不一定是原文作者,其个人理解及总结不一定准确及全面,论文完整思想及论点应以原论文为准。(2)本文观点不代表本公众号立场。
往期精彩内容回顾