图像文本语言识别与拜耳图像坏点检测技术
1. 图像文本语言识别
在图像文本语言识别方面,我们采用了一种设备端高效架构,利用图像中的变音字符来识别文本语言。该架构模型尺寸小、推理时间短,主要聚焦于 13 种拉丁语言,取得了不错的成果,而且现有架构还可进一步扩展到其他拉丁语言。
未来的一个发展方向是将这项工作拓展到拉丁字母以外的其他文字系统。为实现这一目标,首先需要识别对应文字系统中的独特字符,就像我们识别拉丁字母中的变音字符那样,利用这些字符来区分属于该文字系统的不同语言。例如,在天城文脚本中,存在由元音和辅音组合而成的复合字母,这些复合字母带有变音符号。一旦确定了变音字符或类似的独特字符集,就可以应用所讨论的架构并观察光学字符识别(OCR)的结果。
2. 拜耳图像动态坏点检测
CMOS 图像传感器相机是现代手持设备的重要组成部分。传统上,CMOS 图像传感器会受到多种噪声的影响,这些噪声会改变像素强度,导致出现被称为“坏点”的像素,从而降低图像质量。坏点可分为静态和动态两种类型。静态坏点是在制造阶段产生的永久性缺陷,其位置和强度固定,可通过图像传感器管道(ISP)进行校正。而动态坏点在空间和时间上会发生变化,更难检测和校正。
2.1 数据与方法
- 数据集 :检测算法的训练和测试数据集基于从三星 Isocell 3P9 16 MP CMOS 图像传感器输出接口获取的五张拜耳图像。其中三张用于训练阶段。由于坏点检测方法需要围绕待测试像素的 5×5 像素区域,因此从图像中提取 5×5 补丁用于训练和测试。本文的实验范围限于 5×5 像素补丁内有 1 个坏点的情况,更高的