PaddleOCR的简单应用

大数据00

已于 2024-04-24 16:11:57 修改

阅读量1.2k

点赞数 10

CC 4.0 BY-SA版权

分类专栏：应知应会大模型文章标签： ocr nlp

于 2024-04-24 15:56:27 首次发布

本文链接：https://blog.csdn.net/weixin_44996457/article/details/138160905

应知应会同时被 2 个专栏收录

10 篇文章

订阅专栏

大模型

2 篇文章

订阅专栏

本文介绍了光学字符识别(OCR)的基本概念，着重讲解了PaddleOCR，一个清华大学KEG实验室和智谱AI公司开发的开源OCR引擎，覆盖了其应用场景、技术路线、主要功能、使用方法以及与PP-OCRv2的比较。此外，还提供了安装PaddleOCR遇到的问题及解决方案，展示了简单的使用示例。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

1.介绍

1.1 什么是OCR?

光学字符识别（Optical Character Recognition, OCR），ORC是指对包含文本资料的图像文件进行分析识别处理，获取文字及版面信息的技术，检测图像中的文本资料，并且识别出文本的内容。

那么有哪些应用场景呢？

其实我们日常生活中处处都有ocr的影子，比如在疫情期间身份证识别录入信息、车辆车牌号识别、自动驾驶等。我们的生活中，机器学习已经越来越多的扮演着重要角色，也不再是神秘的东西。

OCR的技术路线是什么呢？

ocr的运行方式：输入->图像预处理->文字检测->文本识别->输出

1.2paddleOCR

PaddleOCR是一个基于深度学习的中文OCR（光学字符识别）工具，由清华大学KEG实验室和智谱AI公司开发。它是一个开源的OCR引擎，可以识别中文、英文、数字等多种字体，支持表格、PDF、图片等多种格式。PaddleOCR具有高精度、高召回率、高效率等优点，已经被广泛应用于金融、医疗、电商等多个领域。

以下是PaddleOCR的一些主要功能和特点：

中文识别：PaddleOCR支持中文识别，可以识别多种字体和格式，如表格、PDF、图片等。
英文识别：PaddleOCR也支持英文识别，可以识别英文格式。
数字识别：PaddleOCR可以识别数字格式，包括整数和小数。
表格识别：PaddleOCR可以识别表格格式，可以提取表格中的数据。
PDF识别：PaddleOCR可以识别PDF格式，可以提取PDF中的文本和图片。
图片识别：PaddleOCR可以识别图片格式，可以提取图片中的文本和图片。
高精度：PaddleOCR具有高精度，可以识别高复杂度文本和格式。
高召回率：PaddleOCR具有高召回率，可以识别漏掉的文本和格式。
高效率：PaddleOCR具有高效率，可以快速识别文本和格式。
总之，PaddleOCR是一个强大的OCR引擎，可以识别多种格式和字体，具有高精度、高召回率和高效率等特点，已经被广泛应用于多个领域。

1.3使用方法
1. ocr(image, use_angle_cls=False, use_distance_cls=False, rotate_mode=’ clockwise’, language=‘eng’, force_cpu=False, return_
RESULT=False)：该方法是 PaddleOCR
的核心方法，用于实现图像文本检测和识别。它接受一张图像作为输入，并返回一个包含文本检测结果和识别的结果的字典。
2. rotate_image(image, angle)：该方法用于对图像进行旋转，支持顺时针和逆时针两种旋转方式。
3. rescale_image(image, scale)：该方法用于对图像进行缩放，支持按比例和不按比例两种缩放方式。
4. preprocess_image(image)：该方法用于对图像进行预处理，包括归一化、去噪、二值化等操作。
5. postprocess_prediction(boxes, probs, class_labels)：该方法用于对文本检测结果进行后处理，包括过滤噪声、去除重复框、修正文本框等操作。
6. draw_detections(image, boxes, probs, class_labels, min_conf=0.5)：该方法用于在图像上绘制文本检测结果，包括文本框、类别标签和概率等信息。
7. batch_ocr(images, use_angle_cls=False, use_distance_cls=False, rotate_mode=‘clockwise’, language=‘eng’, force_cpu=False,
return_RESULT=False)：该方法用于实现批处理文本检测和识别，支持同时处理多张图像。
8. create_predictor(model_path, use_angle_cls=False, use_distance_cls=False, rotate_mode=‘clockwise’,
language=‘eng’)：该方法用于创建文本检测和识别的预测器，支持加载预训练模型和自定义模型。
9. save_checkpoint(model_path, epoch, save_optimizer=False)：该方法用于保存模型的检查点文件，支持保存当前训练的模型和优化器。
10. draw_text(image, text, position, font, color, thickness)：该方法用于在图像上绘制文本，支持设置文本的位置、字体、颜色和粗细等参数。
该方法用于在图像上绘制文本，可以设置文本的位置、字体、颜色和粗细等参数。它是 PaddleOCR
中一个非常实用的方法，可以用于生成文本标签、添加说明等操作。
11. restore_checkpoint(model_path)：该方法用于恢复模型的检查点文件，支持加载之前训练的模型。
12. accuracy(predictions, ground_truth)：该方法用于计算文本检测和识别的准确率，支持同时计算多个类别的准确率。
13. evaluate(predictions, ground_truth, iou_threshold=0.5)：该方法用于评估文本检测和识别的结果，支持同时计算多个类别的召回率、精确率、F1 值等指标。
14. confusion_matrix(predictions, ground_truth)：该方法用于生成混淆矩阵，用于分析文本检测和识别的结果。
15. classification_report(predictions, ground_truth)：该方法用于生成分类报告，用于分析文本检测和识别的结果。

2.理解

相比于PP-OCR，PP-OCRv2 在骨干网络、数据增广、损失函数这三个方面进行进一步优化，解决端侧预测效
率较差、背景复杂和相似字符误识等问题，同时引入了知识蒸馏训练策略，进一步提升模型精度。具体地：
• 检测模型优化: (1) 采用 CML 协同互学习知识蒸馏策略；(2) CopyPaste 数据增广策略；
• 识别模型优化: (1) PP-LCNet 轻量级骨干网络；(2) U-DML 改进知识蒸馏策略；(3) Enhanced CTC loss 损
失函数改进。
从效果上看，主要有三个方面提升：
• 在模型效果上，相对于 PP-OCR mobile 版本提升超7%；
• 在速度上，相对于 PP-OCR server 版本提升超过220%；
• 在模型大小上，11.6M 的总大小，服务器端和移动端都可以轻松部署。

原文链接：https://blog.csdn.net/m0_68926749/article/details/134843387

3.简单应用

3.1.安装

pip install -i https://pypi.tuna.tsinghua.edu.cn/simple paddlepaddle
pip install -i https://pypi.tuna.tsinghua.edu.cn/simple paddleocr

在安装paddleocr 出现个大问题

Using cached https://mirror.baidu.com/pypi/packages/73/e9/5b953497c0e36df589fc60cc6c6b35a65eb67d9ad1e45a9163663e43426e/onnx-1.9.0.tar.gz (9.8 MB)
  Installing build dependencies ... done
  Getting requirements to build wheel ... error
  error: subprocess-exited-with-error

  × Getting requirements to build wheel did not run successfully.
  │ exit code: 1
  ╰─> [21 lines of output]
      fatal: not a git repository (or any of the parent directories): .git
      Traceback (most recent call last):
        File "E:\software\python_env\Lib\site-packages\pip\_vendor\pyproject_hooks\_in_process\_in_process.py", line 353, in <module>
          main()
        File "E:\software\python_env\Lib\site-packages\pip\_vendor\pyproject_hooks\_in_process\_in_process.py", line 335, in main
          json_out['return_val'] = hook(**hook_input['kwargs'])
                                   ^^^^^^^^^^^^^^^^^^^^^^^^^^^^
        File "E:\software\python_env\Lib\site-packages\pip\_vendor\pyproject_hooks\_in_process\_in_process.py", line 118, in get_requires_for_build_wheel
          return hook(config_settings)
                 ^^^^^^^^^^^^^^^^^^^^^
        File "C:\Users\GW00227659\AppData\Local\Temp\pip-build-env-6ksz4f_a\overlay\Lib\site-packages\setuptools\build_meta.py", line 325, in get_requires_for_build_wheel
          return self._get_build_requires(config_settings, requirements=['wheel'])
                 ^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^
        File "C:\Users\GW00227659\AppData\Local\Temp\pip-build-env-6ksz4f_a\overlay\Lib\site-packages\setuptools\build_meta.py", line 295, in _get_build_requires
          self.run_setup()
        File "C:\Users\GW00227659\AppData\Local\Temp\pip-build-env-6ksz4f_a\overlay\Lib\site-packages\setuptools\build_meta.py", line 487, in run_setup
          super().run_setup(setup_script=setup_script)
× Getting requirements to build wheel did not run successfully.
│ exit code: 1
╰─> See above for output.

note: This error originates from a subprocess, and is likely not a problem with pip.

Exception: Building py-lmdb from source on Windows requires the "patch-ng" p

尝试安装 pip install py-lmdb /pip install patch-ng 依然报错

windows Building wheel for lmdb (setup.py) ... error error: subprocess-exite

解决主要思路是本地没有第三方C++编译工具

解决方法：

确保你有所有必需的编译工具和依赖项。对于lmdb，你可能需要安装Microsoft Visual C++ Build Tools或者Visual Studio，并确保安装了C++编译环境。
如果你已经安装了编译工具，尝试更新到最新版本。
检查是否有任何特定于lmdb的依赖项缺失，如liblmdb库。如果是，请安装它们。
尝试使用pip安装lmdb，使用命令pip install lmdb。如果这不起作用，可以尝试使用lmdb的二进制wheel文件安装，可以在Unofficial Windows Binaries for Python Extension Packages找到预编译的wheel文件。
如果你是在虚拟环境中工作，尝试重新创建虚拟环境。
如果问题依旧，尝试搜索错误信息的其余部分或者查看安装过程中的输出，以获取更多的错误详情，这有助于定位具体问题。

下载Microsoft C++ 生成工具 - Visual Studio

然后启动安装C++桌面工具

安装好之后在进行下载

pip install -i https://pypi.tuna.tsinghua.edu.cn/simple paddleocr

ok成功了

3.2 简单小应用

from paddleocr import PaddleOCR
import re

ocr = PaddleOCR(lang="ch")  # 使用中文识别
result = ocr.ocr("D:\\data\\手写文字.png")

for line in result:
   print("\n")
   print(line)  # 输出识别结果

这里执行时还有个小问题，protobuf模块的版本不能低于3.2.X，但是当时我的是最新版本是报错的，按需尝试

[[[[60.0, 30.0], [342.0, 23.0], [343.0, 66.0], [61.0, 73.0]], ('很多人不需要的见!', 0.8933263421058655)], [[[69.0, 94.0], [349.0, 90.0], [349.0, 131.0], [70.0, 136.0]], ('因为只是路过而已.', 0.9535466432571411)], [[[68.0, 163.0], [342.0, 165.0], [342.0, 204.0], [67.0, 202.0]], ('遗忘就是我给你', 0.9926413297653198)], [[[81.0, 224.0], [267.0, 224.0], [267.0, 281.0], [81.0, 281.0]], ('最好的纪念', 0.9038046002388)], [[[172.0, 261.0], [377.0, 261.0], [377.0, 286.0], [172.0, 286.0]]]]