关于crnn中的ctc

本文深入探讨了卷积循环神经网络(CRNN)在图像识别中的工作原理,重点介绍了CTC(连接ist序列学习)的作用。CTC解决了在训练时标签对齐的问题,通过引入空白符号简化了序列到序列的映射。它计算所有可能的路径概率并取对数负概率作为损失。在实际操作中,CTC利用动态规划进行编辑距离计算,简化了序列预测过程。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

图文可以参考
crnn就是卷积加lstm加ctc,cnn用于提取特征,lstm用于提取序列特征,ctc用来解决训练时标签对齐问题,假如没有ctc,经过lstm输出的维度为w×n×c,其中w为输入进lstm的特征图宽度,n为batch size,c为类别数,如果直接以softmax输出,我们需要为每一个时刻的序列都标注一个标签,而每一个序列在原图上会对应一个区域,这样我们会为一个图片标注w个标签,我们在标注标签的时候还需要计算每一个序列在原图对应的区域,是相当麻烦的,ctc提出了一种计算方法,引入blank,如果输出序列中相邻的字符相同,那么就合并,如果相同但是中间有个空白符,就保留,这样就会输出一个标签序列,即为P(Π|x),意思是在x的条件下输出为Π的概率,在ctc中就是每个序列的预测概率乘积,但是输出序列可能会和标签序列的长度不同,ctc计算思想就是,计算所有由Π到达标签l的的概率总和的-ln,简单来说就是-ln(p(l|x)),l是标签,x对应lstm输出。
这里我并没有去解释Π怎么变成l的,实际中会用到动态规划的算法,求编辑距离,比较麻烦,这些足够应付面试提问了

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值