基于FCN的文本行分割与基于深度学习的多手手势精确识别
基于FCN的文本行分割
在处理文档图像时,文本行分割是一项重要任务。这里介绍一种基于全卷积网络(FCN)的文本行分割方法。
后处理操作
FCN生成的输出可能存在文本行未完全分离的情况。为了解决这个问题,需要进行后处理操作,主要包括形态学开运算和形态学膨胀运算。
- 形态学开运算 :对FCN输出的图像进行形态学开运算,可初步分离文本行。例如,对图5(b)的图像进行形态学开运算后,结果如图5(c)所示,此时各文本行已初步分离,但单文本行内仍存在一些断开情况。
- 形态学膨胀运算 :为消除单文本行内的断开间隙,使用大小为1 × l的水平线状结构元素进行形态学膨胀运算,最终得到所需输出,如图5(d)所示。
graph LR
A[FCN输出图像] --> B[形态学开运算]
B --> C[单文本行存在断开]
C --> D[形态学膨胀运算]
D --> E[最终输出图像]
实验结果
该方法使用三个公开可用的数据集进行测试和评估:
| 数据集名称 | 数据集详情 |
| — | — |
| 扭曲文档图像数据集(WDID) | 当前版本包含258张不同的扭曲文档图像,图像由不同手机相机拍摄,主要包含孟加拉语/天城文等字母音节文字,部分图像存在透视畸变和折叠情况,文本行分割具有挑战性。 |
| cBAD