大模型部署-使用Triton+TensorRT-LLM部署ChatGLM3-6B大模型-附项目源码+流程教程-优质项目实战

共79个文件

py：31个

pbtxt：14个

sh：8个

版权申诉

Triton

项目源码

8 浏览量 2024-10-15 21:52:56 上传评论收藏 205KB ZIP 举报

在当今人工智能领域，大模型的部署已成为关键环节，涉及到从模型训练到实际应用的完整流程。本项目以ChatGLM3-6B这一大型语言模型为例，详细探讨了如何利用Triton与TensorRT-LLM工具，实现高效且稳定的大模型部署，该项目不仅包含完整的源码，还配有详尽的流程教程，旨在提供一个优质的实战案例。我们来了解Triton Inference Server。Triton是由NVIDIA推出的一款开源推理服务软件，支持多种深度学习框架和硬件后端。它能够提供高性能、高可用性的模型推理服务，尤其适合于生产环境。Triton通过统一接口与模型仓库的概念，使得模型部署变得更加简便和标准化。在大模型部署方面，Triton能够有效管理多个模型的生命周期，支持自动扩缩容，以及GPU与CPU的资源优化。 TensorRT-LLM则是NVIDIA TensorRT的高级语言模型插件，它是针对语言模型特别是大型语言模型优化的推理引擎。通过与Triton结合使用，TensorRT-LLM可以进一步提升大模型的推理性能，降低延迟，提高吞吐量。它利用了TensorRT的混合精度推理、内核自动调优、动态内存管理等技术，为部署大型语言模型提供了强大的后端支持。在项目实战部分，我们关注的是如何将ChatGLM3-6B模型与上述工具相结合，实现高效部署。ChatGLM3-6B是专为生成语言模型设计的，能够在各种自然语言处理任务中表现出色，包括但不限于文本生成、对话系统、摘要、翻译等。项目中详细介绍了如何准备模型，如何在Triton中配置模型仓库，如何通过TensorRT-LLM优化模型，以及如何测试部署效果。本项目源码部分展示了如何实现这一系列部署步骤。从环境准备到模型转换，再到部署上线，每一环节都有详细的代码解释和注释，帮助开发者理解并复现整个过程。此外，流程教程部分则更为直观地指导用户一步步操作，从安装Triton和TensorRT，到模型的具体部署，都有明确的步骤和截图说明，即使是初学者也能依葫芦画瓢完成部署。通过本项目的实战，用户不仅能够学习到如何部署一个大型语言模型，还能深刻理解大模型部署背后的技术原理和优化方法。这对于想要在实际工作中应用此类技术的开发者来说，具有极高的实用价值。本项目不仅是一个技术实现的示例，更是一个教学和实践的工具。通过它的学习与实践，用户能够掌握大模型部署的关键技术点，为未来在人工智能领域的深入研究和开发打下坚实的基础。

资源推荐

资源详情

资源评论

收起资源包目录

大模型部署_使用Triton+TensorRT-LLM部署ChatGLM3-6B大模型_附项目源码+流程教程_优质项目实战.zip （79个子文件）

大模型部署_使用Triton+TensorRT-LLM部署ChatGLM3-6B大模型_附项目源码+流程教程_优质项目实战

tools

__init__.py 0B

environment_setup.sh 3KB

gpt

gen_input_data.py 4KB

end_to_end_test.py 12KB

benchmark_core_model.py 7KB

client.py 5KB

client_async.py 6KB

gen_trtllm_dockerfile.py 7KB

utils.sh 779B

version.txt 48B

utils

utils.py 17KB

__init__.py 0B

fill_template.py 1019B

inflight_batcher_llm

end_to_end_test.py 10KB

benchmark_core_model.py 13KB

speculative_decoding_test.py 7KB

dockerfile

Dockerfile.trt_llm_backend 2KB

triton_model_repo

postprocessing

config.pbtxt 2KB

model.py 9KB

ensemble

config.pbtxt 8KB

tensorrt_llm

config.pbtxt 6KB

tensorrt_llm_bls

config.pbtxt 4KB

model.py 15KB

preprocessing

config.pbtxt 3KB

model.py 14KB

docs

llama.md 12KB

baichuan.md 17KB

L0_backend_trtllm

base_metrics_verification_tests.py 8KB

custom_metrics_verification_tests.py 7KB

test.sh 17KB

generate_engines.sh 4KB

simple_data.json 12KB

README.md 5KB

all_models

gpt

postprocessing

config.pbtxt 494B

model.py 5KB

ensemble

config.pbtxt 4KB

tensorrt_llm

config.pbtxt 2KB

model.py 12KB

preprocessing

config.pbtxt 1KB

model.py 9KB

inflight_batcher_llm

postprocessing

config.pbtxt 3KB

model.py 8KB

ensemble

config.pbtxt 8KB

tensorrt_llm

config.pbtxt 6KB

tensorrt_llm_bls

config.pbtxt 4KB

model.py 15KB

preprocessing

config.pbtxt 3KB

model.py 13KB

inflight_batcher_llm

CMakeLists.txt 15KB

src

custom_metrics_reporter

custom_metrics_reporter.cc 10KB

custom_metrics_reporter.h 7KB

work_item.cc 7KB

model_instance_state.h 5KB

model_state.cc 5KB

utils.cc 7KB

libtriton_tensorrtllm.ldscript 2KB

libtensorrtllm.cc 7KB

model_state.h 4KB

work_items_queue.cc 6KB

work_item.h 4KB

model_instance_state.cc 20KB

work_items_queue.h 5KB

utils.h 3KB

cmake

modules

set_ifndef.cmake 838B

TritonTensorRTLLMBackendConfig.cmake.in 2KB

client

__init__.py 0B

e2e_grpc_speculative_decoding_client.py 16KB

inflight_batcher_llm_client.py 27KB

end_to_end_grpc_client.py 9KB

README.md 8KB

scripts

build.sh 299B

requirements.txt 66B

README.md 20KB

scripts

benchmarking

collate_reports.py 2KB

trtllm_perf.sh 3KB

test.sh 10KB

replace_bs.py 1KB

build_model.sh 10KB

launch_triton_server.py 3KB

# Triton-Server-TensorrtLLM-ChatGLM3 <a name="o5JjG"></a> ## 介绍 <a name="fOrL4"></a> ### Triton inference server Triton 推理服务器是英伟达 NVIDIA AIE 的组成部分，同时也是一个**开源**的推理服务软件，用于**简化 AI 模型的部署和推理过程，并提供高性能的推理服务**。 Triton 推理服务器提供了标准化的 AI 推理流程，**支持部署各种深度学习和机器学习框架的AI模型**，包括 TensorRT、TensorFlow、PyTorch、ONNX、OpenVINO、Python、RAPIDS FIL等。Triton 推理服务器可以在 NVIDIA GPU、x86 和 ARM CPU 以及 AWS Inferentia 等设备上进行**云端**、**数据中心**、**边缘**和**嵌入式设备**的推理。 ![](https://cdn.nlark.com/yuque/0/2024/png/1604247/1710901115274-7c2317af-ce82-4271-9899-70e1aabeca0e.png#averageHue=%23f7f7f7&clientId=u8e1ff727-14c4-4&from=paste&id=ue4b41d51&originHeight=788&originWidth=627&originalType=url&ratio=1&rotation=0&showTitle=false&status=done&style=none&taskId=ucc6f6597-998b-401e-a49f-11c176e0ad1&title=) Triton的**主要特性**包括： - 支持多种机器学习/深度学习框架 - 并发模型执行 - 动态批处理 - 序列批处理和隐式状态管理用于有状态模型 - 提供后端API，允许添加自定义后端和前/后处理操作 - 使用集成（ Ensembles）和业务逻辑脚本（ BLS）构建模型Pipeline - 基于社区开发的KServe协议的HTTP/REST和GRPC推理协议 - 支持C API和Java API直接链接到应用程序 - 指示GPU利用率、服务器吞吐量、服务器延迟等指标 Triton 推理服务器对多种查询类型提供高效的推理，支持**实时查询**、**批处理查询**、**集成模型查询**和**音视频流查询**等。 <a name="atp6I"></a> ### TensorRT-LLM TensorRT-LLM是针对大型语言模型构建最优化的 TensorRT 引擎，以在 NVIDIA GPU 上高效执行推理。 TensorRT-LLM 包含用于创建执行这些 TensorRT 引擎的 Python 和 C++ 运行时的组件，还包括与 NVIDIA Triton 推理服务器集成的后端，用于提供大模型服务的生产级系统。**TensorRT-LLM 支持单个 GPU 到多节点多 GPU 的各种配置环境的使用，同时支持近30余种国内外流行大模型的优化**。 TensorRT-LLM 的具体性能可以查看官方性能页面，其优势在一些测试和报道中也已经得到体现：NVIDIA TensorRT-LLM 在 NVIDIA H*GPU （80GB）上大幅提升大型语言模型的推理速度。 TensorRT-LLM 优化特性覆盖了以下几个方面： **1. 注意力优化（Attention Optimizations）** - Multi-head Attention (MHA)：将注意力计算分解为多个头，提高并行性，并允许模型关注输入的不同维度语义空间的信息，然后再进行拼接。 - Multi-query Attention (MQA)：与MHA不同的，MQA 让所有的头之间共享同一份 Key 和 Value 矩阵，每个头只单独保留了一份 Query 参数，从而大大减少 Key 和 Value 矩阵的参数量，提高吞吐量并降低延迟。 - Group-query Attention (GQA)：介于MHA和MQA，将查询分组以减少内存访问和计算，提高效率。 - In-flight Batching：重叠计算和数据传输以隐藏延迟并提高性能。 - Paged KV Cache for the Attention ：在注意力层中缓存键值对，减少内存访问并加快计算速度。 **2. 并行性（ Parallelism）** - Tensor Parallelism ：将模型层分布在多个 GPU 上，使其能够扩展到大型模型。 - Pipeline Parallelism ：重叠不同层的计算，降低整体延迟。 **3. 量化（ Quantization）** - INT4/INT8 weight-only (W4A16 和 W8A16)：将权重存储为 4 位或 8 位整型减少模型大小和内存占用，同时保持激活在 16 位浮点精度。 - SmoothQuant：为注意力层提供平滑量化，保留准确性。 - GPTQ：一次性权重量化方法，针对 GPT 类似模型架构量身定制的量化技术，同时保持精度。 - AWQ：自适应权重量化，动态调整不同部分模型的量化精度，确保高精度和效率。 - FP8：在支持的 GPU（如 NVIDIA Hopper）上利用 8 位浮点精度进行计算，进一步减少内存占用并加速处理。 **4. 解码优化（ Decoding Optimizations）** - Greedy-search：贪婪搜索，一次生成一个文本令牌，通过选择最可能的下一个令牌，快速但可能不太准确。 - Beam-search：束搜索，跟踪多个可能的令牌序列，提高准确性但增加计算成本。 **5. 其他** - RoPE (相对位置编码)：高效地嵌入令牌的相对位置信息，增强模型对上下文的理解。能否使用特定优化取决于模型架构、硬件配置和所需的性能权衡，目前最新版本中，并非所有模型都支持上述优化。TensorRT-LLM 提供了一个灵活的框架，可用于尝试不同的优化策略，以实现特定用例的最佳结果。通过一系列的优化技术，能显著提高大语言模型在 NVIDIA GPU 上的性能和效率。 TensorRT-LLM 使用的流程： ![b39f6a448aab35464ed4f878ac83e5e8.png](https://cdn.nlark.com/yuque/0/2024/png/1604247/1710484083589-71f79757-3e57-4e12-bbfe-96e2cd697f98.png#averageHue=%23f5f5f5&clientId=u222aebfd-4f12-4&from=paste&height=403&id=ue9eeff89&originHeight=5625&originWidth=10000&originalType=binary&ratio=1&rotation=0&showTitle=false&size=3072830&status=done&style=none&taskId=u244c08de-daaf-4ec8-bd19-ae978f9e3cf&title=&width=717) <a name="Fgnuc"></a> ## 部署实践 <a name="BuJXo"></a> ### 系统环境 - GPU: A30 24G *4 - Memory: 256GB - Host OS：Ubuntu 22.04 - GPU Driver：545.29.06 - Cuda Toolkit：cuda_12.3 <a name="QBx0Q"></a> ### 版本说明 - Docker Image：nvcr.io/nvidia/tritonserver:24.01-trtllm-python-py3 - Docker Image：baseten/tensorrt-llm-benchmarks:v0.7.1 我们使用的triton版本是24.01，与此对应的tensorrtllm版本需要是v0.7.1，[这里](https://docs.nvidia.com/deeplearning/frameworks/support-matrix/index.html)可以看到不同版本对驱动、cuda以及pytorch、tensorrt-llm的要求。 <a name="JGsWv"></a> ### 拉取tritonserver镜像 ```shell docker pull nvcr.io/nvidia/tritonserver:24.01-trtllm-python-py3 ``` <a name="iSy2L"></a> ### clone tensorrtllm项目 ```shell git clone -b v0.7.1 --depth=1 https://github.com/triton-inference-server/tensorrtllm_backend.git ``` <a name="YeJEE"></a> ### 复制文件 ```shell cd tensorrtllm_backend mkdir triton_model_repo cp -r all_models/inflight_batcher_llm/* triton_model_repo/ ``` <a name="nY6HO"></a> ### 在tensorrt-llm容器里编译chatglm3-6b的engine 因为我在本地无法执行`make -C docker release_build`，来构建tensorrt-llm的docker镜像，因此选择直接拉取镜像文件，然后将本地模型文件挂载在容器内，来进行模型的编译。 ```shell sudo docker run --gpus all \ --name trt_llm \ -d \ --ipc=host \ --ulimit memlock=-1 \ -v /home/lead/models:/mnt\ --restart=always \ --ulimit stack=67108864 \ baseten/tensorrt-llm-benchmarks:v0.7.1 sleep 8640000 sudo docker exec -it trt_llm /bin/bash ``` 然后是构建推理引擎 ```shell python3 chatglm/build.py \ -m chatglm3_6b \ --model_dir /mnt/chatglm3-6b/ \ --world_size 4 --tp_size 4 \ --max_batch_size 256 \ --max_output_len 2048 \ --max_input_len 2048 \ --enable_context_fmha \ --use_gpt_attention_plugin \ --paged_kv_cache \ --output_dir chatglm/trt_engines/chatglm3_6b/fp16/triton_4-gpu_v2 ``` build.py 参数选择 1. --model_name {chatglm_6b,chatglm2_6b,chatglm2_6b_32k,chatglm3_6b,chatglm3_6b_base,chatglm3_6b_32k,glm_10b}：指定要构建的模型名称。使用下划线而不是连字符来连接名称部分。 2. --world_size WORLD_SIZE：指定世界大小，目前只支持张量并行。 3. --tp_size TP_SIZE：指定张量并行的大小。 4. --pp_size PP_SIZE：指定流水线并行的大小。 5. --model_dir MODEL_DIR：指定模型目录。 6. --quant_ckp

评论收藏

内容反馈

版权申诉