点击查看系列文章目录
0 背景
deepstream 官方文档介绍,支持与 Triton Server 对接,把 nvinfer 的部分放到 triton 上来实现,即 nvinferserver,那么这种方式可以解决什么问题呢?
首先,triton server 支持更多种类的模型,如 pytorch、tensorflow、tensorrt 等,而 nvinfer 只专注于做 tensorrt 模型的集成,这对于模型的开发调试有利;但是如果在实际生产环境中,还是建议使用 nvinfer 插件,因为这种方式更高效,对内存、显存等利用率高,速度更快些。总之,deepstream 结合 triton 具备以下特点:
- 支持更多格式的模型,在 T4 和 Jetson 平台上都支持 tensorrt、tensorflow graphdef and savedmodel、tensorflow-tensorrt model,而 T4 还支持 onnx、pytorch、caffe2 netdef格式
- 支持单张 GPU 上运行多个模型,或者说相同模型的多个实例(多个版本)
本文对 deepstream 与 triton 的结合部署方法做一个介绍。
官方教程: