深度学习模型部署——基于Onnx Runtime的深度学习模型CPU与GPU部署（C++实现）

最新推荐文章于 2025-06-29 17:06:23 发布

u013250861

最新推荐文章于 2025-06-29 17:06:23 发布

阅读量2.3k

点赞数 6

CC 4.0 BY-SA版权

分类专栏： # C++/ONNX 文章标签：人工智能

本文链接：https://blog.csdn.net/u013250861/article/details/139273766

1.概述

许多机器学习和深度学习模型都是在基于 Python 的框架中开发和训练的，例如 PyTorch 和 TensorFlow 等。但是，当需要将这些训练好模型部署到生产环境中时，通常会希望将模型集成到生产流程中，而这些流程大多是用 C++ 编写的，因为 C++ 可以提供更快的实时性能。

目前有许多工具和框架可以帮助我们将预训练模型部署到 C++ 应用程序中。例如，ONNX Runtime 可用于边缘计算和服务器环境，NCNN 和 MNN 适用于移动设备，而 TensorRT 则适用于 Nvidia 的嵌入式平台。这里，通过一个完整的端到端示例来讨论如何利用 ONNX Runtime（GPU 版本）将一个预训练的 PyTorch 模型部署到 C++ 应用程序中。

这种部署方式不仅可以帮助开发者利用 C++ 的高效性能，还可以通过 ONNX Runtime 灵活地使用不同的硬件加速器，如 CPU、CUDA 或 TensorRT 等。通过这种方式，可以在保持应用程序性能的同时，快速集成和部署机器学习和深度学习模型。

2.onnx介绍

ONNX是一个为机器学习设计的开放文件格式，它被用来存储预训练的模型。ONNX 的主要目的是促进不同人工智能框架之间的互操作性，使得模型可以在这些框架之间轻松迁移和部署。这种格式支持统一的模型表示，因此，不同的训练框架，比如 Caffe2、PyTorch、TensorFlow 等，都可以使用相同的格式来存储模型数据，进而实现数据的交互和共享。

ONNX 的规范和代码主要由一些科技巨头公司开发，包括但不限于 Microsoft（微软）、Amazon（亚马逊）、Facebook（脸书）和 IBM。这些公司的贡献确保了 ONNX 作为一个开放标准能够持续发展，并且得到了业界的广泛支持和应用。

通过使用 ONNX，开发者可以更加灵活地选择适合自己项目的 AI 框架，而不必担心框架间的兼容性问题。此外，ONNX 也为模型的优化和加速提供了可能，因为它可以与各种硬件后端（如 CPU、GPU、TPU 等）配合工作，从而提高模型运行的效率。

3. ONNX Runtime介绍

ONNX Runtime 是一个跨平台的机器学习模型加速器，它提供了一个灵活的接口，允许集成针对特定硬件优化的库。这意味着 ONNX Runtime 可以适配多种硬件环境，并且能够充分利用硬件的特性来加速模型的执行。

ONNX Runtime 支持多种执行提供者，包括：

CPU：作为通用处理器，CPU 是执行机器学习模型的一个常见选择。
CUDA：NVIDIA 的 CUDA 为使用 NVIDIA GPU 加速提供了接口，可以显著提升模型在支持 CUDA 的 GPU 上运行的性能。
TensorRT：同样是 NVIDIA 提供的，TensorRT 是一个深度学习推理（inference）优化器和运行时库，专门用于在生产环境中部署深度学习模型。

除了能够利用不同的执行提供者外，ONNX Runtime 还能够与多个框架训练的模型一起使用，这些框架包括但不限于：

PyTorch：一个流行的开源机器学习库，广泛用于计算机视觉和自然语言处理任务。
TensorFlow/Keras：Google 开发的 TensorFlow 是一个强大的机器学习平台，Keras 是其上的高级神经网络 API。
TFLite：TensorFlow 的轻量级解决方案，专门用于移动和嵌入式设备。
scikit-learn：一个简单高效的 Python 编程库，用于数据挖掘和数据分析。

通过 ONNX Runtime 的推理功能，开发者可以轻松地将预训练的 PyTorch 模型部署到 C++ 应用程序中。这使得在需要高性能和实时处理的生产环境中，利用机器学习模型成为可能。通过这种方式，开发者可以享受到 C++ 的性能优势，同时又能通过 ONNX Runtime 灵活地部署和运行各种机器学习模型。

4. 模型转换与依赖安装

Pytorch模型转onnx并推理的步骤如下：

模型转换：首先，需要将 PyTorch 预训练模型文件（可以是 .pth 或 .pt 格式）转换成 ONNX 格式的文件（.onnx 格式）。这一转换过程在 PyTorch 环境中进行。
使用 ONNX Runtime：转换得到的 .onnx 文件随后作为输入，被用于 C++ 应用程序中。在这个应用程序中，调用 ONNX Runtime 的 C++ API 来执行模型的推理。

这个流程允许开发者利用 PyTorch 强大的训练能力来训练模型，并将训练好的模型通过 ONNX 这一开放格式，部署到 C++ 环境中，从而在多种不同的平台上实现高性能的推理计算。通过这种方式，开发者可以兼顾模型的开发效率和部署时的性能要求。

4.1 PyTorch 模型转换到 ONNX

为了演示方便，这里使用Yolov8的一个人脸检测的模型进行演示，首先安装ultralytics框架：

conda create --name yolov8 python==3.10
conda activate yolov8
pip install ultralytics

然后把模型好的.pt模型转成onnx模型，转换代码如下：

from ultralytics import YOLO
model = YOLO("yolov8n_face.pt")
success = model.export(format="onnx", simplify=True)  # export the model to onnx format
assert success
print("转换成功")

运行之后之后成功一个同名的onnx模型。