问题1:三次curl请求,后面的请求会胡乱回答
更换NPU卡之前,三次curl请之后会报心跳丢失,然后同样的问题,回复不一样。更换NPU后回答一样,并且胡乱回答消失,问题得到解决。
更换之前
更换之后
问题2:TBE错误、模型加载时间特别长,或者一直在等待
如果buffer占用很少,但是服务一直等待内存加载,或者很长时间之后报错,有可能是NPU通信问题。通过配置环境变量、校验NPU之间和业务IP之间是否互通解决。
检查物理链接:
for i in {0…7}; do hccn_tool -i $i -lldp -g | grep Ifname; done
检查链接状态:
for i in {0…7}; do hccn_tool -i $i -link -g; done
检查网络健康情况:
for i in {0…7}; do hccn_tool -i $i -netdetect -g; done
检查TLS是否配置为0:
for i in {0…7}; do hccn_tool -i $i -tls -g ; done |grep switch
检查NPU的IP是否配置成功:
for i in {0…7}; do hccn_tool -i $i -ip -g ; done
检查取RoCE网卡默认网关
for i in {0…7}; do hccn_tool -i $i -gateway -g; done
检查网络检测对象IP
for i in {0…7}; do hccn_tool -i 0 -netdetect -g; done
关闭防火墙:
systemctl stop firewalld
检查环境变量:
export MIES_CONTAINER_IP=容器IP
export ATB_LLM_HCCL_ENABLE=1
export ATB_LLM_COMM_BACKEND=“hccl”
export HCCL_CONNECT_TIMEOUT=7200
export WORLD_SIZE=16
export HCCL_EXEC_TIMEOUT=0
检查业务IP端口之间是否互通:
主节点:python3 -m http.server 1025
其他节点:curl http://10.0.0.6:8080(这个改成自己的ip)
问题3:DeepSeek有时候没有think过程
在权重文件中修改tokenizer_config.json文