本文简要介绍IEEE TMM 2022录用论文“A Tree-Structure Analysis Network on Handwritten Chinese Character Error Correction”的主要工作。作者设计了一个诊断系统来进行手写汉字的定位和纠错,分为分解,判断和纠错三部分。首先,作者提出了一个树结构分析网络(TAN)来得到手写汉字的偏旁部首表示。然后对汉字进行判断,最后将判断为错误书写的汉字进行相应定位和纠错。实验表明,本文方法比其他基于偏旁部首的文本识别方法在汉字定位纠错上效果更好。由于汉字复杂的结构和庞大的类别数量,对于汉字初学者来说,他们很容易把汉字写错。而汉字纠错任务可以帮助他们定位书写错误的偏旁部首和结构,并且指示正确的偏旁部首,具有重要应用价值。如图1所示,作者首先定义了三种书写错误,分别是笔画的错误,偏旁部首的错误和结构顺序的错误。其中结构顺序的错误表示正确的偏旁部首以错误的结构顺序组合。
![]()
图1 三种书写错误的例子
手写汉字定位纠错系统流程如图2所示,分为分解,判断和纠错三部分。图2为推理框架,在训练中只有分解模块进行训练,并且用于训练的都是正确的汉字。
图2 手写汉字定位纠错系统1、树结构标签
从汉字分解方式——表意文字描述序列(IDS)出发,所有汉字可以被分解为由偏旁部首和结构组成的树形式[1,2]。本文将汉字分解为二叉树,如图3所示。其中所有父节点为结构,所有叶子节点为偏旁部首,父节点对应的左右节点可以表示该节点在汉字中的空间位置关系。
图3(a)十种汉字结构示例(b)“调”的树形式(c)“调”的树结构标签2、分解模块
分解模块由CNN编码器和树解码器构成。编码器为DenseNet,经过编码器后的输出为
。
图4 树解码器结构树解码器的结构如图4所示。给出父节点
和关系
,然后根据以下公式计算:
此时子节点的分类损失
计算如下公式所示,其中
为One-hot标签。
子节点和父节点的空间关系预测概率为
。空间关系的分类损失
的计算如下公式所示,其中
为One-hot标签。
为了拆分偏旁部首与汉字的语义信息依赖,作者引入偏旁部首三元组损失。书写风格和在不同汉字中的位置是产生偏旁部首类内差异的因素。所以作者提出一个桶挖掘策略,首先将汉字按偏旁部首进行分组,然后每次迭代训练时随机从一组中选P个汉字,每个汉字K个样本。三元组损失
的计算如下公式所示,其中
。
最终,分解模块训练的总损失L为:
3、判断模块根据分解模块预测得到子节点序列
和对应概率
。然后进行嵌入编码
,其中
为子节点在树中的深度。同时需要预处理所有汉字得到
。然后通过距离计算,得到对图片的汉字预测。
其中集合C包含正确汉字集和错误汉字集。4、纠错模块
当判断的汉字属于错误汉字集时,进行定位与纠错。
(1)获得理想的汉字。通过计算与正确汉字集中汉字的距离,得到Top-5的汉字结果作为理想汉字。(2)纠正错误。根据预测出的偏旁部首序列和理想汉字的偏旁部首序列的相应位置的编辑操作,找出出错的偏旁部首和结构所对应的理想偏旁部首和机构。
(3)定位错误。根据编辑操作,找出对应的注意力图,最终全部相加得到最终的错误定位。本文使用的数据集是自己收集的,其中包含570类错误的汉字类别,具体信息如表1所示。采用的评判指标是
,正确率Accuracy和修正率
。
表1数据集统计信息
![]()
表2 总损失函数中三元组损失权重
的消融
从表2可以看出,三元组损失主要作为辅助任务时效果最好。![]()
表4本文方法(TAN)与其他偏旁部首的文本识别方法的对比
![]()
表5不同方法在三种错误类型上的结果
![]()
从表5可以看出,笔画的错误类型识别率最低,而整体的错误拼写数据集的识别率不到60%,所以错误汉字的准确识别是一项很有挑战性的任务。
表6不同方法在三种错误类型上的结果
从表6中可以看出,笔画的错误类型修正率最低,而整体的错误拼写数据集的修正率不到40%,所以正确识别出错误汉字并且正确纠正是很困难的任务。图5给出了本文方法TAN对于错误的偏旁部首的定位和纠错示例。本文设计了一个用于手写汉字定位和纠错的诊断系统。本文提出的树结构分析网络(TAN)将汉字分解为由偏旁部首和结构组成的树形式。实验表明,TAN能够给出更加精确的空间定位信息,优于其他基于偏旁部首的文本识别方法。论文地址:
https://ieeexplore.ieee.org/document/9745593[1] Cao Z, Lu J, Cui S, et al. Zero-shot handwritten chinese character recognition with hierarchical decomposition embedding[J]. Pattern Recognition, 2020, 107: 107488.[2] Zhang J, Du J, Dai L. Radical analysis network for learning hierarchies of Chinese characters[J]. Pattern Recognition, 2020, 103: 107305.
原文作者: Yunqing Li, Jun Du, Jianshu Zhang, Changjie Wu
免责声明:(1)本文仅代表撰稿者观点,撰稿者不一定是原文作者,其个人理解及总结不一定准确及全面,论文完整思想及论点应以原论文为准。(2)本文观点不代表本公众号立场。
征稿启事:本公众号将不定期介绍文档图像分析与识别及相关领域的论文、数据集、代码等成果,欢迎自荐或推荐相关领域最新论文/代码/数据集等成果给本公众号审阅编排后发布 (联系Email: eelwjin@scut.edu.cn)。