141G显存H20单机DeepSeek-R1满血FP8版性能测试

#环境参数#

H20 141G 单机8卡,CUDA 12.4,vLLM v0.8.3,flashinfer v0.2.2

#服务化命令#

基于知乎大神的推荐出装与前期H800双机生产环境测试,在H20上开启EP、MLA等核心优化参数,实现推理吞吐性能最优吞吐量破10000tokens/s,VLLM 0.8.1版本驱动下的Deepseek-r1 671Bhttps://zhuanlan.zhihu.com/p/1887527788514346095?utm_campaign=shareopn&utm_medium=social&utm_psn=1887760069761938542&utm_source=wechat_session

VLLM_ATTENTION_BACKEND=FLASHMLA \
VLLM_TEST_ENABLE_EP=1 VLLM_USE_V1=1 \
vllm serve /DS_test \
--served-model-name deepseek-r1 \
--enable-prefix-caching \
--max-model-len 131072 \
--gpu-memory-utilization 0.95 \
--tensor-parallel-size 8 \
--enable-chunked-prefill \
--enable-reasoning \
--reasoning-parser deepseek_r1 \
--max_num_batched_tokens 32768 \
--block-size 64 \
--port 8000 

#FlashMLA依赖环境配置 

vLLM v0.8.3框架未与flashinfer v0.2.3及以上版本完成适配,且flashinfer自身不支持向下兼容,建议回退到v0.2.2版本 

[topk_topp_sampler.py:38] Currently, FlashInfer top-p & top-k sampling sampler is disabled because FlashInfer>=v0.2.3 is not backward compatible. Falling back to the PyTorch-native implementation of top-p & top-k sampling.

 #NVIDIA GPU架构

 启动服务化过程中会出现 TORCH_CUDA_ARCH_LIST is not set的问题

明确该参数后, PyTorch 在构建过程中可针对CUDA 架构版本进行优化,实现性能5%~10%提升

python -c "import torch; print(torch.cuda.get_device_capability())" ##获取参数
export TORCH_CUDA_ARCH_LIST="9.0" ##配置环境变量

 # 测试结果

采用vLLM内置benchmark脚本进行测试,按照短对话(128输入、512输出)长对话(4k输入、1k输出)进行吞吐性能测试

   vllm bench serve \
        --model "/DS_test" \
        --seed 12345 \
        --served-model-name deepseek-r1 \
        --dataset-name random \
        --request-rate inf \
        --random-input-len 128 \
        --random-output-len 512 \
        --num-prompts 1024

开启MLA后,吞吐性能提升测试结果如下:

H20-DeepSeekR1性能测试
测试组并发数总吞吐(t/s)单用户吞吐(t/s)首字延迟(ms)字间时差(ms)性能提升
短输入输出-1并发132.06 32.06 71.09 31.11 0.470%
短输入输出-2并发268.46 34.23 104.95 29.03 -0.117%
短输入输出-4并发4124.31 31.08 138.10 31.95 -0.249%
短输入输出-8并发8199.43 24.93 211.80 39.57 -0.484%
短输入输出-16并发16335.49 20.97 257.52 47.25 8.929%
短输入输出-32并发32485.13 15.16 362.53 57.69 0.647%
短输入输出-64并发64803.36 12.55 507.49 71.89 3.390%
短输入输出-128并发1281379.88 10.78 813.57 80.54 1.527%
短输入输出-256并发2562210.55 8.63 1647.61 99.48 -0.797%
短输入输出-512并发5123242.10 6.33 4058.10 142.88 -1.824%
短输入输出-1024并发10244093.34 4.00 7883.23 236.33 -1.066%
长输入输出-1并发131.60 31.60 139.22 31.54 0.349%
长输入输出-2并发266.25 33.13 366.97 29.83 -0.015%
长输入输出-4并发4117.83 29.46 793.19 33.17 -0.582%
长输入输出-8并发8189.19 23.65 1075.26 41.22 0.772%
长输入输出-16并发16320.77 20.05 2139.90 47.74 8.872%
长输入输出-32并发32447.60 13.99 4208.34 79.27 2.015%
长输入输出-64并发64666.81 10.42 6661.36 167.95 1.115%
长输入输出-128并发128909.42 7.10 11280.51 237.09 3.948%
长输入输出-256并发256781.70 3.05 94509.18 275.17 -4.569%
长输入输出-512并发512725.57 1.42 257414.50 332.60 0.012%
长输入输出-1024并发1024723.96 0.71 591347.34 273.59 0.035%

####后续调优方向

当前测试场景,开启MLA优化后,整体吞吐性能提升不明显,且随着对话长度增长,整体吞吐性能下降明显

后续考虑通过torch插件,打印prefill阶段更详细的日志信息,确认vLLM框架下MLA优化器的工作效率。

(当前服务侧日志信息)

### 关于 Deepseek671b 和 H2O-141 的技术信息 对于 Deepseek671b 和 H2O-141 这两个特定的技术或产品,当前的信息较为有限。然而,在北京大学多媒体信息处理重点实验室以及PKU-Anker LLM 实验室的工作中提到的研究进展可能与此类大型模型有关[^1]。 #### Deepseek671b 技术概述 Deepseek671b 可能是指一种具有大规模参数量的语言模型或其他类型的深度学习模型。这类模型通常具备强大的自然语言理解和生成能力,适用于多种高级应用场合,如对话系统、机器翻译等。由于其庞大的规模,该模型可能会面临与 GQA/MQA 等现代高效解码架构的内存共享设计冲突的问题,这会限制内存访问优化的潜力[^2]。 #### H2O-141 技术分析 关于 H2O-141 的具体细节同样不详尽,但从命名推测可能是某个特定本或是针对某一领域定制化的解决方案。如果这是一个基于水(H₂O)相关的模拟工具或者是某种化学物质,则需要查阅更专业的文献来获取确切的功能描述和技术规格。 为了获得最准确的产品说明和技术文档,建议直接联系制造商或开发者团队索取官方发布的使用手册及相关资料。此外,也可以通过学术数据库和专利库进一步探索这两个项目的背景信息和发展历程。 ```python # 示例代码用于展示如何查询相关资源(假设存在API接口) import requests def fetch_technical_docs(model_name): url = f"https://api.example.com/search?query={model_name}" response = requests.get(url) if response.status_code == 200: return response.json() else: raise Exception("Failed to retrieve documents") try: deepseek_info = fetch_technical_docs('Deepseek671b') h2o_info = fetch_technical_docs('H2O-141') except Exception as e: print(e) ```
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值