昇腾-DeepSeek-FAQ

问题1:三次curl请求,后面的请求会胡乱回答

更换NPU卡之前,三次curl请之后会报心跳丢失,然后同样的问题,回复不一样。更换NPU后回答一样,并且胡乱回答消失,问题得到解决。

更换之前
在这里插入图片描述
更换之后
在这里插入图片描述

问题2:TBE错误、模型加载时间特别长,或者一直在等待

如果buffer占用很少,但是服务一直等待内存加载,或者很长时间之后报错,有可能是NPU通信问题。通过配置环境变量、校验NPU之间和业务IP之间是否互通解决。

检查物理链接:

for i in {0…7}; do hccn_tool -i $i -lldp -g | grep Ifname; done

检查链接状态:

for i in {0…7}; do hccn_tool -i $i -link -g; done

检查网络健康情况:

for i in {0…7}; do hccn_tool -i $i -netdetect -g; done

检查TLS是否配置为0:

for i in {0…7}; do hccn_tool -i $i -tls -g ; done |grep switch

检查NPU的IP是否配置成功:

for i in {0…7}; do hccn_tool -i $i -ip -g ; done

检查取RoCE网卡默认网关

for i in {0…7}; do hccn_tool -i $i -gateway -g; done

检查网络检测对象IP

for i in {0…7}; do hccn_tool -i 0 -netdetect -g; done

关闭防火墙:

systemctl stop firewalld

检查环境变量:

export MIES_CONTAINER_IP=容器IP

export ATB_LLM_HCCL_ENABLE=1

export ATB_LLM_COMM_BACKEND=“hccl”

export HCCL_CONNECT_TIMEOUT=7200

export WORLD_SIZE=16

export HCCL_EXEC_TIMEOUT=0

检查业务IP端口之间是否互通:

主节点:python3 -m http.server 1025

其他节点:curl http://10.0.0.6:8080(这个改成自己的ip)

问题3:DeepSeek有时候没有think过程

在权重文件中修改tokenizer_config.json文

评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

于齐龙

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值