Mooncake：面向长上下文的 KVCache 中心化推理优化方案｜AICon 深圳_AI&大模型_AICon 全球人工智能开发与应用大会_InfoQ精选文章



 写点什么

登录/注册



大小：838.20K时长：04:46

Mooncake：面向长上下文的 KVCache 中心化推理优化方案｜AICon 深圳

8 月 22 日 -23 日，首届AICon 全球人工智能开发与应用大会深圳站即将拉开帷幕。本次大会将聚焦 Agent、多模态、AI 产品设计等热门方向，围绕企业如何通过大模型降低成本、提升经营效率的实际应用案例，邀请来自阿里、腾讯、字节跳动、微软、华为等头部企业以及商汤、Plaud、Rokid 等 AI 明星公司的专家，分享 AI 落地实战经验。一起探索 AI 应用的更多可能，发掘 AI 驱动业务增长的新路径！

阿里云高级技术专家马腾已确认出席并发表题为《Mooncake：面向长上下文的 KVCache 中心化推理优化方案》的主题分享。随着大模型应用的普及，推理过程中的高计算资源消耗和 KVCache（键值缓存）的冗余存储成为关键瓶颈，导致推理成本高昂、吞吐量受限，尤其在长上下文场景中表现尤为突出。Mooncake 项目通过创新的以 KVCache 为中心的“PD 分离”架构（计算与存储解耦）和“以存换算”设计，将 KVCache 池化共享，结合高性能传输技术（如 eRDMA、GPUDirect）和分布式存储优化，实现跨实例的资源复用。

Mooncake 项目包括三大创新点：（1）Transfer Engine：支持全链路零拷贝、多网卡聚合（8×400Gbps），兼容 eRDMA/NVLink/CXL，动态拓扑感知。（2）KVCache Store：利用 GPU 闲置内存与 RPC 框架 coro_rpc，实现透明多级缓存，未来支持廉价存储下沉。（3）生态整合：与 vLLM/SGLang 等主流推理框架适配，TPOT 下降 20%，成本低至 0.2$/1M Token。在多轮对话，长文本阅读等场景中，推理吞吐量显著提升，响应时间降低 69.1%，并被阿里云、蚂蚁集团等企业实际部署。

马腾现任阿里云高级技术专家，于 2021 年 6 月在清华大学获得计算机博士学位。于 2021 年 7 月至 2023 年 11 月期间，在阿里云联合中科院自动化所博士后工作站从事数据中心解耦相关研究。马腾目前担任阿里云基础软件部门的高级技术专家，主要从事 AI 基础设施在新硬件环境下国产化的研究工作，以及国产化硬件如何优化大模型服务系统，其中 CXL-SHM 是国内高速总线领域第一个开源项目，另一个开源项目 Mooncake 被阿里 / 蚂蚁 / 腾讯等多家企业使用。在 SOSP, ASPLOS, ATC, SC, INFOCOM, VLDB, TPDS 等顶级会议上发表论文二十余篇，相关成果授权美国 / 中国专利十余项。入选 CCF 系统软件专委会优秀博士论文激励计划，担任 PPoPP, FAST, ICME, DASFAA, TPDS, TC, JSC 等国际会议 / 期刊的程序委员会成员和审稿人。他在本次会议的详细演讲内容如下：

演讲提纲：

1、引言

大模型推理的挑战：成本、吞吐与长上下文瓶颈
Mooncake 项目的产学研背景与开源意义

2、核心技术解析

PD 分离架构：计算与存储解耦的设计哲学
KVCache 池化：共享机制与性能优化
Transfer Engine：eRDMA/GPUDirect 的高效传输实现

3、行业实践与效果

与 vLLM/SGLang 的适配案例
企业级部署经验（阿里云、蚂蚁集团）

4、未来展望

Mooncake Store v2：多实例共享 KVCache
生态扩展：LMDeploy、TensorRT-LLM 等框架支持

听众收益：

了解如何通过 KVCache 池化与 PD 分离架构解决大模型推理的高成本问题，获得可复用的架构设计思路
学习 eRDMA/GPUDirect 等高性能传输技术在大模型场景的落地方法，提升分布式系统优化能力
掌握主流推理框架（如 vLLM）与 Mooncake 的适配策略，推进开源解决方案持续发展

除此之外，本次大会还策划了AI Infra、AI 产品研发与商业落地探索、Agent 应用新范式与 MCP 生态实践、AI 驱动业务重塑与提效、智能硬件与具身智能创新实践、AI 原生时代的卓越架构治理、、多模态与空间智能技术创新、Agent + Data 落地探索、AI 赋能研发体系变革、Agent 核心技术与系统架构创新、大模型在金融领域的创新实践等 10 多个专题论坛，届时将有来自不同行业、不同领域、不同企业的 70+资深专家在 AICon 深圳站现场带来前沿技术洞察和一线实践经验。

大会 9 折优惠倒计时最后 1 天，单张门票立省 580 元，详情可扫码或联系票务经理 13269078023 咨询。

评论

发布

暂无评论

【LeetCode】无法吃午餐的学生数量Java题解

算法 LeetCode 10月月更

面试官：你说说JavaScript中类型的转换机制

JavaScript 面试前端类型转换 10月月更

零信任时代安全沙箱成为企业应用必需品

一文梳理2048小游戏从开发到上云全流程

华为云开发者联盟

云计算游戏开发华为云企业号十月 PK 榜 2048小游戏

如何定义LED显示屏与OLED显示屏

LED LED显示屏 OLED

新来个技术总监，仅花2小时，撸出一个多线程永动任务，看完直接跪了，真牛逼！

小小怪下士

Java 程序员多线程

Rocksdb dynamic-level-bytes测试简单记录

TiDB 社区干货传送门

实践案例管理与运维

OpenHarmony轻量系统中内核资源主要管理方式

OpenHarmony开发者

银斯微推出跨平台APP生成、发布Non-Stop云服务“W-Hive”

为了讲明白继承和super、this关键字，群主发了20块钱群红包

华为云开发者联盟

开发华为云企业号十月 PK 榜发红包

数据中台的前世今生（一）：数据仓库——数据应用需求的涌现

数据中台数据仓库

TiDB v6.1.0 及 TiUniManager 在 openEuler 22.03 中的部署踩坑实践

TiDB 社区干货传送门

实践案例管理与运维安装 & 部署应用适配 6.x 实践

车联网移动场景MQTT通信优化实践

EMQ映云科技

车联网物联网 IoT mqtt 10月月更

koa实战

Docker | 部署nginx服务

nginx Docker 10月月更

企业架构-了解分布式

企业架构分布式系统凤凰架构书籍拆解

“程”风破浪的开发者｜什么是web3.0，一文带你搞懂它

共饮一杯无

前沿技术 Web3.0 10月月更 “程”风破浪的开发者

多版本并行，测试如何做好质量保障？

质量保障版本迭代

TiCDC 实践：TiDB 到 TiDB 增量数据迁移

TiDB 社区干货传送门

细说nodejs的path模块

深入nodejs的event-loop

Java中的抽象类详解

共饮一杯无

Java 抽象类 10月月更

“程”风破浪的开发者｜THREE.JS实现看房自由（VR看房）

前端 three.js 元宇宙 VR看房 “程”风破浪的开发者

从P5~P8！最适合在职Java程序员学习提升路线大公开！

Java永远的神

程序人生后端架构师 java程序员 Java学习路线

建木v2.5.7发布

DevOps 持续集成 CI/CD 自动化运维

Kyligence 当选 Gartner 2022 中国数据管理 Cool Vendor

Gartner 数据管理

千万级高并发秒杀系统设计套路！超详细解读~~

博文视点Broadview

【文本检测与识别白皮书】第三章-第三节：算法模型

合合技术团队

人工智能深度学习文字识别文本

Nodejs：ESModule和commonjs，傻傻分不清

钛媒体 | 发布PaaS平台2.0，元年科技通过自主技术撬起更大市场

元年技术洞察

Docker | 镜像浅析，以及制作自己的镜像

Docker tomcat 10月月更