离线阿拉伯手写识别:MDLSTM与Maxout的融合探索
在图像和手写识别领域,高效准确的识别系统一直是研究的重点。本文将围绕离线阿拉伯手写识别系统展开,深入探讨MDLSTM与Maxout单元的融合,以解决深度神经网络常见的梯度消失问题,并提升识别性能。
1. MDLSTM输出层与Maxout单元
在离线阿拉伯手写识别系统中,输出层有121个单元,其中120个用于呈现120个标签,最后一个单元的激活表示无观测或“空白”观测的概率。通过累加所有可能的概率,输出层能够轻松解读每个标签序列的所有可能排列方式。
然而,MDLSTM作为一种深度前馈神经网络,即便采用了强大的LSTM单元,仍会遭遇梯度消失问题。为解决这一问题,可以在MDLSTM网络的不同位置添加Maxout单元,从而筛选出最佳方案,提升基础系统的性能。
2. Maxout单元概述
2.1 定义
Maxout单元最早在前馈DNN中被提出。这种正则化技术可将隐藏单元划分为不同的组。Maxout非线性将维度从F × G 降至 F,其中F是单元组的数量,G是每组神经元的数量,即组大小。其输出为所有输入的最大值,公式如下:
[h_i = \max_{i = 1}^{G} z_{ij}]
其中 (z_{ij} = x^T W_{ij} + b_{ij})
2.2 过往研究
Maxout在不同的计算机视觉任务(如语音识别)中表现出色。相关研究表明,在基于LSTM的识别系统中应用Maxout,能有效降低错误识别率,具体数据如下表所示:
|作者|网络|错误率|数据集|降低率|
| ---- |