21、大模型基础设施与部署调优策略：从云原生到自动化配置-CSDN博客

本文链接：https://blog.csdn.net/table/article/details/151105885

大模型基础设施与部署调优策略：从云原生到自动化配置

1. 云原生推理框架

云原生推理框架借助如 TensorRT 和 DeepSpeed 等开源工具，极大简化了模型部署过程。以 Amazon SageMaker 为例，部署模型只需创建一个服务属性文件，并通过单个 API 创建持久端点，这些 API 端点会将特定框架容器化并管理模型的托管。

2023 年 11 月，Amazon SageMaker 发布了大模型推理（LMI）深度学习容器（DLC）的 0.25.0 版本，集成了 Nvidia 的 TensorRT - LLM 库。这一集成优化了 SageMaker 中大型语言模型（LLM）的使用，显著提高了成本效益。与之前版本相比，LMI TensorRT - LLM DLC 能将 Llama 2 70B、Falcon 40B 和 CodeLlama 34B 等模型的延迟降低 33%，吞吐量提高 60%。

SageMaker 的 LMI DLC 旨在解决将 LLM 适配到单个加速器或 GPU 实例的挑战，以实现低延迟推理和可扩展性。最新的 DLC 支持推理请求的连续批处理和高效的集体操作，以更好地管理延迟，还包含 Paged Attention V2 以处理更长的序列长度，并更新了 TensorRT - LLM 库以优化 GPU 性能。这些 DLC 简化了优化过程，只需提供模型 ID 和可选参数，即可使用 TensorRT - LLM 进行编译，且编译和创建优化模型存储库的过程在 DLC 内自动完成。此外，最新的 DLC 还集成了 GPTQ、AWQ 和 SmoothQuant 等先进的量化技术。

除了 SageMaker，Azure 和 GCP 等其他云服务也提供