小白综述：深度学习 OCR 图片文字识别

最新推荐文章于 2025-06-30 17:57:28 发布

ctrl A_ctrl C_ctrl V

最新推荐文章于 2025-06-30 17:57:28 发布

阅读量1.7w

点赞数 41

CC 4.0 BY-SA版权

分类专栏： # OCR 图片文字识别文章标签：深度学习 ocr 人工智能

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/qq_43799400/article/details/135125949

文章目录

1. OCR 算法流程
2. 文本检测算法
3. 文本识别算法
- 3.1 基于分割的单字符识别方法
- 3.2 基于序列标注的文本行识别方法

1. OCR 算法流程

OCR (Optical Character Recognition,光学字符识别) 是指提取图像中的文字信息。

1.1 传统 OCR 方法

传统 OCR 方法一般包含预处理、版面处理、字符切分、字符识别、后处理等五个步骤：

在这里插入图片描述
传统 ORC 方法的缺点有：

预处理和版面分析都是基于传统图像处理方法以及人工定义的规则，通常是基于固定场景开发的，无法迁移到其它场景中，应用范围有限。
字符识别方法基于人工特征，鲁棒性不足，在字体变化或者背景干扰情况下，分类器的识别效果会大打折扣。
流程繁杂，各个模块互相独立，导致难以整体调优，同时各个模块串联也会导致误差传递，造成整体识别精度不高。

总体来讲，受传统算法的局限性，传统 OCR 仅在比较规整的印刷文档上表现比较好，但在复杂场景（图像模糊、低分辨率、干扰信息）中，文字检测和识别性能都不够理想。

1.2 深度学习 OCR 方法

深度学习时代的 OCR 算法更为简洁，主要可以分为两种思路：

two-stage方法：文字检测+文字识别，分别由检测网络和识别网络来完成。
端到端方法：直接输出识别后的文本，由一个大网络来完成。

在这里插入图片描述

<

最低0.47元/天解锁文章

200万优质内容无限畅学

评论 1

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

打赏作者

ctrl A_ctrl C_ctrl V 你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20

扫码支付：¥1

获取中

扫码支付

您的余额不足，请更换扫码支付或充值

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。