在当今数字化时代,深度学习技术的快速发展为各行各业带来了革命性的变化。作为国内领先的分类信息网站,58同城一直致力于通过技术创新提升服务质量和用户体验。近期,58同城AI Lab推出了一项重要的技术革新——基于Istio的云原生网关深度学习推理平台。本文将从技术角度深入解析这一创新实践,探讨其架构设计、应用效果以及未来发展方向。
一、深度学习推理平台的重要性
深度学习推理平台在58同城的业务中扮演着至关重要的角色。它不仅负责将算法人员使用深度学习框架训练出来的模型部署到生产环境,还提供了高性能、高可用的在线推理服务。目前,该平台已上线超过1000个模型,运行在4000多个节点上,日均请求量高达30亿次,峰值QPS达到6.6万次。这一规模和性能要求对平台的架构设计和运维提出了极高的挑战。
二、推理架构1.0的不足
在推理平台1.0架构中,58同城面临着一系列挑战。首先,由于缺乏平台化能力,各业务部门在实现AI应用落地时效率低下。其次,算法人员深陷工程泥潭,模型迭代效率低。此外,SCF框架虽然具备成熟的服务治理能力,但在服务性能、开发运维成本和业务接入方面存在明显不足。例如,SCF与gRPC请求协议互转的延时损耗大,底层Netty SocketChannel自适应缓冲区内存配置策略对size较大请求不友好,导致性能抖动。同时,与第三方库紧密耦合,集成新功能或第三方库升级都需要对网关进行整体升级,成本较高。接入流程复杂,增加了算法人员调试成本,且不支持HTTP方式接入。
三、Istio云原生网关的革新
为了解决上述问题,58同城AI Lab引入了Istio云原生网关。Istio是一个开源的服务网格框架,旨在解决微服务架构中的服务间通信问题。它通过提供透明的代理和服务治理功能,简化了微服务架构的运维复杂性。Istio的诞生标志着云原生概念的重定义,它将服务网格理念融入云原生体系,成为处理服务间通信的基础设施层。
Istio云原生网关在多个方面展现了其优势。首先,Envoy作为边缘代理,在Lyft公司中得到生产验证,随后成为云原生计算基金会(CNCF)第三个毕业的项目。其次,Istio采用了控制面和数据面隔离的架构,搭配xDS(x Discover