vllm 在PPU 或A100 起多卡qwen 推理服务报错被kill

最新推荐文章于 2025-06-28 13:58:27 发布

白熊188

最新推荐文章于 2025-06-28 13:58:27 发布

阅读量646

点赞数 1

CC 4.0 BY-SA版权

分类专栏：文本大模型文章标签： chatgpt

本文链接：https://blog.csdn.net/weixin_43988131/article/details/145597559

vllm 在PPU 或A100 起单卡qwen 推理服务报错被kill

python3 -m vllm.entrypoints.api_server --model /workspace/QwQ-32B-Preview --swap-space 16 --disable-log-requests --tensor-parallel-size 2 --gpu-memory-utilization 0.9

在这里插入图片描述
【解决方法】：加 --trust-remote-code

python3 -m vllm.entrypoints.api_server --model /model/QwQ-32B-Preview --swap-space 16 --disable-log-requests --tensor-parallel-size 2 --gpu-memory-utilization