南迪那伽利手写棕榈叶手稿文本识别与医学图像超分辨率技术
立即解锁
发布时间: 2025-09-02 01:30:21 阅读量: 2 订阅数: 4 AIGC 

# 南迪那伽利手写棕榈叶手稿文本识别与医学图像超分辨率技术
## 1. 超分辨率成像
超分辨率成像技术用于提高图像的分辨率。光学超分辨率可突破系统的衍射极限,而几何超分辨率则可增强数字成像传感器的分辨率。从低分辨率图像重建高分辨率图像是一项具有挑战性的任务,当输入为单张低分辨率图像时,挑战更大。
超分辨率(SR)是从单张低分辨率(LR)图像估计高分辨率(HR)图像。简单来说,预测的高分辨率就是SR,真实的高分辨率是HR,单张输入图像是LR。在机器学习和深度学习应用中,LR图像通常是经过下采样、添加噪声和模糊处理的HR图像。
## 2. 南迪那伽利文字的特点
南迪那伽利文字具有以下特点:
- 基本字符集有52个字符,其中15个是元音,37个是辅音。
- 两个或多个辅音可以组合形成连字符。
- 南迪那伽利文字不使用Shirorekha(顶线)。
- 字符集中有许多形状相似的字符,这使得南迪那伽利字符识别系统成为一个具有挑战性的问题。
## 3. 问题陈述
目标是使用机器学习技术自动识别从手写图像中获取的南迪那伽利字符。为此,提出并实现不变特征提取和分类技术进行识别。
## 4. 数据库创建
从著名的Sanathan文献来源,如公元12世纪Acharya Madhwa的《Tantra Saara Sangraha》中获取棕榈叶手稿形式的宗教文本。与学者讨论后,根据手稿准备两个参考字符集来解读文献。通过让不同年龄组的10个用户书写,创造不同的手写风格,同时改变笔的类型和墨水颜色,以获得厚度和颜色的变化。
### 4.1 数据库创建步骤
南迪那伽利数据库创建步骤如下:
1. 使用HP平板扫描仪以300 dpi或更高分辨率扫描图像。
2. 以两种不同格式(jpg或png)存储图像。
3. 进行Unicode标记,例如:119A0;NANDINAGARI LETTER A; (参考:http://www.unicode.org/Public/UCD/latest/ucd/EastAsianWidth.txt),示例:Gan_conv_11D5A_E0000_0009。
4. 计算生成不同的字符:
- 使用最近邻插值调整大小。
- 使用仿射变换程序进行旋转。
- 使用3×3卷积窗口进行卷积。
- 使用腐蚀方法细化图像。
- 使用高斯模糊(sigma值为1.6)模糊图像,并添加椒盐噪声(随机将2.5%的像素替换为黑色像素,2.5%替换为白色像素)。
以下是不同聚类数量下的码本大小和聚类时间表格:
| 序号 | 聚类数量 | 码本大小 (KB) | 聚类时间 (ms) |
| ---- | ---- | ---- | ---- |
| 1 | 16 | 42 | 69,777 |
| 2 | 24 | 62 | 97,743 |
| 3 | 32 | 83 | 118,895 |
| 4 | 52 | 134 | 178,367 |
### 4.2 数据库创建流程
```mermaid
graph LR
A[扫描图像] --> B[存储图像]
B --> C[Unicode标记]
C --> D[计算生成字符]
```
## 5. 主要研究目标
- 不变特征提取:提出并实现不变特征提取和识别技术。
- 减少人工工作量:将识别南迪那伽利字符所需的工作量减少50%。
- 标准化:协助数据库创建,并帮助提出通用标准(UNICODE)进行编码。
## 6. 方法
### 6.1 学习阶段
从各种手写南迪那伽利字符中选择不同的图像格式、旋转、缩放、光照和翻译。应用SIFT特征提取技术,从每个候选点提取128个特征描述符,这些描述符对缩放、旋转和光照具有不变性。然后进行训练,使用K均值聚类方法对SIFT特征描述符空间进行聚类,生成视觉单词,即SIFT描述符码本,它是图像的量化表示。
使用VLAD向量化技术对特征进行编码表示,使用线性索引方法对这些特征进行索引,并存储为视觉词汇表,以便快速检索,使用Berkeley数据库(BDB)索引环境。
### 6.2 识别阶段
将未知字符的查询图像纳入考虑,提取SIFT关键点,并以128维描述符格式表示。根据学习阶段生成的视觉码本,使用VLAD向量化技术生成查询向量。将查询向量与视觉词汇表进行比较,检索与查询图像匹配的前N个结果。
### 6.3 提出的架构
提出的架构包括以下步骤:
1. 为两名书写者提供52个手写字符集,生成不同风格和细节的扫描图像。第一种书写风格包括不同大小(256×256、384×384、512×512和640×640)和不同方向角度(0°、45°、90°、135°和180°)的图像,构成1049个字符的字体1数据库。第二种风格包括不同类别的图像,如正常大小(128×128和512×512)的图像、卷积图像、细化图像、模糊图像、带噪声图像、旋转15°的图像和平移5像素的图像,形成578个图像,总共1627个手写南迪那伽利字符图像。
2. SIFT特征提取:提取图像(.jpg或.png文件)的SIFT特征并写入文本文件。为每个图像识别第一个关键点,并为每个关键点生成128个特征描述符。
3. 生成超分辨率图像:由于卷积操作会减小输入图像的大小,因此使用反卷积来获得输出图像大小为输入图像的4倍。在训练数据阶段获取大量扫描的HR图像,将其缩小4倍得到LR图像。通过训练LR图像生成高分辨率图像,主要目标是减少真实图像与生成图像像素之间的均方误差(MSE),当误差接近零时,模型能够生成高质量的HR图像。
4. 将总共1627个输入图像输入到特征提取模块,将特征文件以.csv扩展名写入目录,代表不同风格和类型的图像。然后将所有特征文件合并为一个文件并进行处理
0
0
复制全文
相关推荐









