大模型基础设施与部署调优策略:从云原生到自动化配置
1. 云原生推理框架
云原生推理框架借助如 TensorRT 和 DeepSpeed 等开源工具,极大简化了模型部署过程。以 Amazon SageMaker 为例,部署模型只需创建一个服务属性文件,并通过单个 API 创建持久端点,这些 API 端点会将特定框架容器化并管理模型的托管。
2023 年 11 月,Amazon SageMaker 发布了大模型推理(LMI)深度学习容器(DLC)的 0.25.0 版本,集成了 Nvidia 的 TensorRT - LLM 库。这一集成优化了 SageMaker 中大型语言模型(LLM)的使用,显著提高了成本效益。与之前版本相比,LMI TensorRT - LLM DLC 能将 Llama 2 70B、Falcon 40B 和 CodeLlama 34B 等模型的延迟降低 33%,吞吐量提高 60%。
SageMaker 的 LMI DLC 旨在解决将 LLM 适配到单个加速器或 GPU 实例的挑战,以实现低延迟推理和可扩展性。最新的 DLC 支持推理请求的连续批处理和高效的集体操作,以更好地管理延迟,还包含 Paged Attention V2 以处理更长的序列长度,并更新了 TensorRT - LLM 库以优化 GPU 性能。这些 DLC 简化了优化过程,只需提供模型 ID 和可选参数,即可使用 TensorRT - LLM 进行编译,且编译和创建优化模型存储库的过程在 DLC 内自动完成。此外,最新的 DLC 还集成了 GPTQ、AWQ 和 SmoothQuant 等先进的量化技术。
除了 SageMaker,Azure 和 GCP 等其他云服务也提供