PaddleOCR的简单应用

本文介绍了光学字符识别(OCR)的基本概念,着重讲解了PaddleOCR,一个清华大学KEG实验室和智谱AI公司开发的开源OCR引擎,覆盖了其应用场景、技术路线、主要功能、使用方法以及与PP-OCRv2的比较。此外,还提供了安装PaddleOCR遇到的问题及解决方案,展示了简单的使用示例。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

1.介绍

1.1 什么是OCR?


光学字符识别(Optical Character Recognition, OCR),ORC是指对包含文本资料的图像文件进行分析识别处理,获取文字及版面信息的技术,检测图像中的文本资料,并且识别出文本的内容。

那么有哪些应用场景呢?

其实我们日常生活中处处都有ocr的影子,比如在疫情期间身份证识别录入信息、车辆车牌号识别、自动驾驶等。我们的生活中,机器学习已经越来越多的扮演着重要角色,也不再是神秘的东西。

OCR的技术路线是什么呢?

ocr的运行方式:输入->图像预处理->文字检测->文本识别->输出


1.2paddleOCR

PaddleOCR是一个基于深度学习的中文OCR(光学字符识别)工具,由清华大学KEG实验室和智谱AI公司开发。它是一个开源的OCR引擎,可以识别中文、英文、数字等多种字体,支持表格、PDF、图片等多种格式。PaddleOCR具有高精度、高召回率、高效率等优点,已经被广泛应用于金融、医疗、电商等多个领域。

以下是PaddleOCR的一些主要功能和特点:

中文识别:PaddleOCR支持中文识别,可以识别多种字体和格式,如表格、PDF、图片等。
英文识别:PaddleOCR也支持英文识别,可以识别英文格式。
数字识别:PaddleOCR可以识别数字格式,包括整数和小数。
表格识别:PaddleOCR可以识别表格格式,可以提取表格中的数据。
PDF识别:PaddleOCR可以识别PDF格式,可以提取PDF中的文本和图片。
图片识别:PaddleOCR可以识别图片格式,可以提取图片中的文本和图片。
高精度:PaddleOCR具有高精度,可以识别高复杂度文本和格式。
高召回率:PaddleOCR具有高召回率,可以识别漏掉的文本和格式。
高效率:PaddleOCR具有高效率,可以快速识别文本和格式。
总之,PaddleOCR是一个强大的OCR引擎,可以识别多种格式和字体,具有高精度、高召回率和高效率等特点,已经被广泛应用于多个领域。

1.3使用方法
1. ocr(image, use_angle_cls=False, use_distance_cls=False, rotate_mode=’ clockwise’, language=‘eng’, force_cpu=False, return_
RESULT=False):该方法是 PaddleOCR
的核心方法,用于实现图像文本检测和识别。它接受一张图像作为输入,并返回一个包含文本检测结果和识别的结果的字典。
2. rotate_image(image, angle):该方法用于对图像进行旋转,支持顺时针和逆时针两种旋转方式。
3. rescale_image(image, scale):该方法用于对图像进行缩放,支持按比例和不按比例两种缩放方式。
4. preprocess_image(image):该方法用于对图像进行预处理,包括归一化、去噪、二值化等操作。
5. postprocess_prediction(boxes, probs, class_labels):该方法用于对文本检测结果进行后处理,包括过滤噪声、去除重复框、修正文本框等操作。
6. draw_detections(image, boxes, probs, class_labels, min_conf=0.5):该方法用于在图像上绘制文本检测结果,包括文本框、类别标签和概率等信息。
7. batch_ocr(images, use_angle_cls=False, use_distance_cls=False, rotate_mode=‘clockwise’, language=‘eng’, force_cpu=False,
return_RESULT=False):该方法用于实现批处理文本检测和识别,支持同时处理多张图像。
8. create_predictor(model_path, use_angle_cls=False, use_distance_cls=False, rotate_mode=‘clockwise’,
language=‘eng’):该方法用于创建文本检测和识别的预测器,支持加载预训练模型和自定义模型。
9. save_checkpoint(model_path, epoch, save_optimizer=False):该方法用于保存模型的检查点文件,支持保存当前训练的模型和优化器。
10. draw_text(image, text, position, font, color, thickness):该方法用于在图像上绘制文本,支持设置文本的位置、字体、颜色和粗细等参数。
该方法用于在图像上绘制文本,可以设置文本的位置、字体、颜色和粗细等参数。它是 PaddleOCR
中一个非常实用的方法,可以用于生成文本标签、添加说明等操作。
11. restore_checkpoint(model_path):该方法用于恢复模型的检查点文件,支持加载之前训练的模型。
12. accuracy(predictions, ground_truth):该方法用于计算文本检测和识别的准确率,支持同时计算多个类别的准确率。
13. evaluate(predictions, ground_truth, iou_threshold=0.5):该方法用于评估文本检测和识别的结果,支持同时计算多个类别的召回率、精确率、F1 值等指标。
14. confusion_matrix(predictions, ground_truth):该方法用于生成混淆矩阵,用于分析文本检测和识别的结果。
15. classification_report(predictions, ground_truth):该方法用于生成分类报告,用于分析文本检测和识别的结果。

2.理解


相比于PP-OCR,PP-OCRv2 在骨干网络、数据增广、损失函数这三个方面进行进一步优化,解决端侧预测效
率较差、背景复杂和相似字符误识等问题,同时引入了知识蒸馏训练策略,进一步提升模型精度。具体地:
• 检测模型优化: (1) 采用 CML 协同互学习知识蒸馏策略;(2) CopyPaste 数据增广策略;
• 识别模型优化: (1) PP-LCNet 轻量级骨干网络;(2) U-DML 改进知识蒸馏策略;(3) Enhanced CTC loss 损
失函数改进。
从效果上看,主要有三个方面提升:
• 在模型效果上,相对于 PP-OCR mobile 版本提升超7%;
• 在速度上,相对于 PP-OCR server 版本提升超过220%;
• 在模型大小上,11.6M 的总大小,服务器端和移动端都可以轻松部署。
                        
原文链接:https://blog.csdn.net/m0_68926749/article/details/134843387

3.简单应用

3.1.安装

pip install -i https://pypi.tuna.tsinghua.edu.cn/simple paddlepaddle
pip install -i https://pypi.tuna.tsinghua.edu.cn/simple paddleocr
 

在安装paddleocr 出现个大问题

Using cached https://mirror.baidu.com/pypi/packages/73/e9/5b953497c0e36df589fc60cc6c6b35a65eb67d9ad1e45a9163663e43426e/onnx-1.9.0.tar.gz (9.8 MB)
  Installing build dependencies ... done
  Getting requirements to build wheel ... error
  error: subprocess-exited-with-error

  × Getting requirements to build wheel did not run successfully.
  │ exit code: 1
  ╰─> [21 lines of output]
      fatal: not a git repository (or any of the parent directories): .git
      Traceback (most recent call last):
        File "E:\software\python_env\Lib\site-packages\pip\_vendor\pyproject_hooks\_in_process\_in_process.py", line 353, in <module>
          main()
        File "E:\software\python_env\Lib\site-packages\pip\_vendor\pyproject_hooks\_in_process\_in_process.py", line 335, in main
          json_out['return_val'] = hook(**hook_input['kwargs'])
                                   ^^^^^^^^^^^^^^^^^^^^^^^^^^^^
        File "E:\software\python_env\Lib\site-packages\pip\_vendor\pyproject_hooks\_in_process\_in_process.py", line 118, in get_requires_for_build_wheel
          return hook(config_settings)
                 ^^^^^^^^^^^^^^^^^^^^^
        File "C:\Users\GW00227659\AppData\Local\Temp\pip-build-env-6ksz4f_a\overlay\Lib\site-packages\setuptools\build_meta.py", line 325, in get_requires_for_build_wheel
          return self._get_build_requires(config_settings, requirements=['wheel'])
                 ^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^
        File "C:\Users\GW00227659\AppData\Local\Temp\pip-build-env-6ksz4f_a\overlay\Lib\site-packages\setuptools\build_meta.py", line 295, in _get_build_requires
          self.run_setup()
        File "C:\Users\GW00227659\AppData\Local\Temp\pip-build-env-6ksz4f_a\overlay\Lib\site-packages\setuptools\build_meta.py", line 487, in run_setup
          super().run_setup(setup_script=setup_script)
× Getting requirements to build wheel did not run successfully.
│ exit code: 1
╰─> See above for output.

note: This error originates from a subprocess, and is likely not a problem with pip.
Exception: Building py-lmdb from source on Windows requires the "patch-ng" p

尝试安装 pip install py-lmdb /pip install patch-ng 依然报错

windows Building wheel for lmdb (setup.py) ... error error: subprocess-exite

解决主要思路是本地没有第三方C++编译工具

解决方法:

  1. 确保你有所有必需的编译工具和依赖项。对于lmdb,你可能需要安装Microsoft Visual C++ Build Tools或者Visual Studio,并确保安装了C++编译环境。

  2. 如果你已经安装了编译工具,尝试更新到最新版本。

  3. 检查是否有任何特定于lmdb的依赖项缺失,如liblmdb库。如果是,请安装它们。

  4. 尝试使用pip安装lmdb,使用命令pip install lmdb。如果这不起作用,可以尝试使用lmdb的二进制wheel文件安装,可以在Unofficial Windows Binaries for Python Extension Packages找到预编译的wheel文件。

  5. 如果你是在虚拟环境中工作,尝试重新创建虚拟环境。

  6. 如果问题依旧,尝试搜索错误信息的其余部分或者查看安装过程中的输出,以获取更多的错误详情,这有助于定位具体问题。

下载Microsoft C++ 生成工具 - Visual Studio 

然后启动安装C++桌面工具

安装好之后在进行下载

 pip install -i https://pypi.tuna.tsinghua.edu.cn/simple paddleocr

ok成功了

3.2 简单小应用

from paddleocr import PaddleOCR
import re

ocr = PaddleOCR(lang="ch")  # 使用中文识别
result = ocr.ocr("D:\\data\\手写文字.png")

for line in result:
   print("\n")
   print(line)  # 输出识别结果

这里执行时还有个小问题,protobuf模块的版本不能低于3.2.X,但是当时我的是最新版本是报错的,按需尝试

[[[[60.0, 30.0], [342.0, 23.0], [343.0, 66.0], [61.0, 73.0]], ('很多人不需要的见!', 0.8933263421058655)], [[[69.0, 94.0], [349.0, 90.0], [349.0, 131.0], [70.0, 136.0]], ('因为只是路过而已.', 0.9535466432571411)], [[[68.0, 163.0], [342.0, 165.0], [342.0, 204.0], [67.0, 202.0]], ('遗忘就是我给你', 0.9926413297653198)], [[[81.0, 224.0], [267.0, 224.0], [267.0, 281.0], [81.0, 281.0]], ('最好的纪念', 0.9038046002388)], [[[172.0, 261.0], [377.0, 261.0], [377.0, 286.0], [172.0, 286.0]]]]
 

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值