图形识别方法在技术文档查询与浏览中的应用
图形识别主要处理富含图形的文档中的特定模式识别问题,这类文档常见于各种技术文档。本文将带大家回顾在该领域20年的研究贡献,并探讨在大型复杂技术文档集合中进行浏览、查询和导航时遇到的有趣问题。
1. 引言
文档图像分析是模式识别乃至计算机科学最早的应用之一。直到20世纪80年代,该领域的研究主要集中在基于文本的文档,包括光学字符识别(OCR)和页面布局分析。当时也有少数人关注一些特定文档,如乐谱、银行支票或表格。
20世纪90年代初,一个小团队开始研究线图,这一领域后来被称为图形识别。它专注于富含图形的文档以及这些文档带来的特定模式识别问题,如光栅到图形的转换、文本与图形的分离、符号识别等,并拥有自己的专业研讨会——GREC系列研讨会。
作者在该领域工作多年,在20年的研究历程中,是时候回顾成果、分析现状,并为未来几年得出一些结论了。关键在于如何考虑上下文以及进行增量学习。
2. 20年图形识别研究贡献回顾
图像分析过程通常包括两个主要步骤:
1. 通过某种分割过程从图像中提取特征;
2. 对提取的特征进行结构分析和/或统计分类以实现识别能力。
2.1 分割
在纯图形领域,向量是一个基本特征,通过矢量化过程可以将图像从逐像素视图转换为几何实体的组合,如线段和圆弧。然而,矢量化并非简单问题,图像中的伪影、不规则性、噪声和交点等需要更复杂的算法来避免用户手动纠正小错误。
作者团队最初的算法试图从更广泛的角度处理图像,如匹配形状的多边形轮廓或将图像分割成小网格来检测简单的矢量配置。但这些方法需要针对特