vllm 在PPU 或A100 起单卡qwen 推理服务报错被kill
python3 -m vllm.entrypoints.api_server --model /workspace/QwQ-32B-Preview --swap-space 16 --disable-log-requests --tensor-parallel-size 2 --gpu-memory-utilization 0.9
【解决方法】:加 --trust-remote-code
python3 -m vllm.entrypoints.api_server --model /model/QwQ-32B-Preview --swap-space 16 --disable-log-requests --tensor-parallel-size 2 --gpu-memory-utilization