利用变音字符进行图像文本的设备端语言识别
1 引言
变音符号是添加到字母或字符上的符号,用于提供额外的语音细节,改变字符的正常发音。在正字法中,带有变音符号的字符可能被视为新字符或字符 - 变音符号组合,这些规则在不同语言和同一语言的不同变体中有所不同。
光学字符识别(OCR)是将图像中的文本转换为电子形式以分析数字化数据的重要计算机视觉任务。OCR 增强有两种主要方式:
- 显式增强 :旨在提高 OCR 的固有准确性,依赖于 OCR 的内部架构、图像预处理等因素。图像质量受文本字体大小、图像来源等多方面影响,许多图像预处理技术可提高图像质量,增强 OCR 的识别信心。
- 隐式增强 :专注于外部因素以改善 OCR 在机械化环境中的结果。例如,后处理技巧、确定图像中文本的语言并将其作为 OCR 参数选择正确的语言依赖项。在隐式增强中,OCR 的原始准确性不变,但最终结果得到改善。
本文聚焦于利用变音字符识别图像中文本的语言,以提高 OCR 性能。变音字符在区分不同语言中相似字符时非常重要,例如 `a 和 ´a 若不指定正确语言,很容易被遗漏或误识别。
2 相关工作
在自然语言处理领域,已有很多语言识别工作,但识别图像中文本的语言并非易事,尤其是不涉及字符分割或 OCR 技术时。大多数现有 OCR 工作默认已知图像中文本的语言,但 OCR 方法通常只对其设计的特定语言效果良好。
目前,脚本检测虽能区分不同脚本的语言,但无法区分同一脚本的语言,如西班牙语和德语都属于拉丁脚本。以往的语言识别工作存在一定局限性:
- 部