MMDeploy模型部署入门指南：从训练模型到生产环境

晏闻田Solitary

于 2025-06-19 09:14:02 发布

阅读量462

点赞数 3

CC 4.0 BY-SA版权

本文链接：https://blog.csdn.net/gitblog_00240/article/details/148756144

MMDeploy模型部署入门指南：从训练模型到生产环境

前言

在深度学习领域，模型训练只是第一步，将训练好的模型部署到实际生产环境才是最终目标。MMDeploy作为OpenMMLab生态系统中的模型部署工具链，为开发者提供了一套完整的解决方案，能够将训练好的模型高效地部署到各种硬件平台和推理引擎上。

什么是MMDeploy

MMDeploy是一个专为计算机视觉模型设计的部署工具包，它支持将OpenMMLab系列框架（如MMDetection、MMClassification等）训练出的模型转换为多种后端格式，并提供高效的推理SDK。其主要特点包括：

多后端支持：支持ONNX Runtime、TensorRT等多种推理引擎
端到端流程：从训练模型到部署应用的一站式解决方案
跨平台能力：支持Linux和Windows系统
多语言接口：提供Python、C++、C#、Java等多种编程语言接口

核心组件解析

MMDeploy的部署流程主要由三个核心组件构成：

1. 模型转换器(Model Converter)

模型转换器是MMDeploy的核心组件，负责将训练好的PyTorch模型转换为目标设备可执行的格式。转换过程分为两个阶段：

中间表示(IR)转换：将PyTorch模型转换为ONNX或TorchScript等中间格式
后端模型生成：将中间格式进一步转换为特定推理引擎的优化格式

这种分层设计使得MMDeploy能够灵活支持多种后端，同时保持转换过程的稳定性。

2. MMDeploy模型包

转换完成后，MMDeploy会生成一个完整的模型包，包含：

优化后的后端模型文件
模型元信息（输入输出规格、预处理参数等）
部署配置文件

这个包是后续推理的基础，确保了模型在不同环境中的一致性。

3. 推理SDK

推理SDK是用C/C++开发的高性能推理库，主要功能包括：

图像预处理（归一化、resize等）
模型推理
后处理（解码、NMS等）
多语言接口封装

SDK针对不同硬件平台进行了深度优化，能够充分发挥硬件加速能力。

环境准备与安装

基础环境要求

Python 3.6+
PyTorch 1.8+
CUDA（如需GPU推理）

模型转换实战

我们以MMDetection中的Faster R-CNN模型为例，演示如何将其转换为TensorRT格式：

python tools/deploy.py \
    configs/mmdet/detection/detection_tensorrt_dynamic-320x320-1344x1344.py \
    mmdetection/configs/faster_rcnn/faster-rcnn_r50_fpn_1x_coco.py \
    checkpoints/faster_rcnn_r50_fpn_1x_coco.pth \
    demo.jpg \
    --work-dir mmdeploy_model/faster-rcnn \
    --device cuda \
    --dump-info

关键参数说明：

第一个配置文件：部署配置，指定目标后端和优化参数
第二个配置文件：原始模型训练配置
模型权重文件：训练好的模型参数
示例图片：用于生成校准数据
--work-dir：输出目录
--device：转换使用的设备

转换完成后，工作目录中将包含：

end2end.onnx：中间表示模型
end2end.engine：优化后的TensorRT引擎
pipeline.json：预处理和后处理流程定义
deploy.json：部署元信息

模型推理方式

MMDeploy提供两种推理方式，满足不同场景需求。

1. 使用模型转换器API推理

适合快速验证和Python环境：

from mmdeploy.apis import inference_model

result = inference_model(
    model_cfg='mmdetection/configs/faster_rcnn.py',
    deploy_cfg='configs/mmdet/detection/detection_tensorrt.py',
    backend_files=['mmdeploy_model/faster-rcnn/end2end.engine'],
    img='demo.jpg',
    device='cuda:0')

2. 使用SDK推理

适合生产环境部署，支持多语言接口。

Python SDK示例：

from mmdeploy_runtime import Detector
import cv2

detector = Detector(model_path='mmdeploy_model/faster-rcnn', 
                   device_name='cuda',
                   device_id=0)

img = cv2.imread('demo.jpg')
bboxes, labels, _ = detector(img)

# 结果可视化
for bbox in bboxes:
    if bbox[4] > 0.3:  # 过滤低置信度结果
        left, top, right, bottom = map(int, bbox[:4])
        cv2.rectangle(img, (left, top), (right, bottom), (0,255,0))

cv2.imwrite('result.jpg', img)

C++ SDK示例：

#include "mmdeploy/detector.hpp"

int main() {
    mmdeploy::Model model("mmdeploy_model/faster-rcnn");
    mmdeploy::Detector detector(model, mmdeploy::Device{"cuda", 0});
    
    auto img = cv::imread("demo.jpg");
    auto dets = detector.Apply(img);
    
    for (const auto& det : dets) {
        if (det.score > 0.3) {
            cv::rectangle(img, 
                          {int(det.bbox.left), int(det.bbox.top)},
                          {int(det.bbox.right), int(det.bbox.bottom)},
                          {0, 255, 0});
        }
    }
    cv::imwrite("result.jpg", img);
    return 0;
}

模型性能评估

MMDeploy提供了专门的工具来评估部署模型的性能：

python tools/test.py \
    configs/mmdet/detection/detection_tensorrt.py \
    mmdetection/configs/faster_rcnn/faster_rcnn_r50_fpn_1x_coco.py \
    --model mmdeploy_model/faster-rcnn/end2end.engine \
    --metrics latency accuracy \
    --device cuda:0

评估指标包括：

推理延迟（latency）
精度（accuracy）
内存占用（memory）
吞吐量（throughput）

进阶技巧

预处理加速

MMDeploy支持将图像预处理操作（如归一化、颜色空间转换等）融合到模型中，减少数据传输开销：

# 在部署配置中启用预处理融合
deploy_cfg = {
    'backend_config': {
        'preprocess': {
            'fuse_normalize': True,
            'fuse_color_convert': True
        }
    }
}

动态形状支持

对于需要处理不同尺寸输入的场景，可以配置动态形状：

# 在部署配置中指定动态尺寸范围
deploy_cfg = {
    'backend_config': {
        'model_inputs': [{
            'input_shapes': {
                'input': {
                    'min_shape': [1, 3, 320, 320],
                    'opt_shape': [1, 3, 800, 1344],
                    'max_shape': [1, 3, 1344, 1344]
                }
            }
        }]
    }
}