【备份】ncclInvalidUsage: This usually reflects invalid usage of NCCL library

使用分布式的时候报错:

RuntimeError: NCCL error in: ../torch/csrc/distributed/c10d/ProcessGroupNCCL.cpp:957, invalid usage, NCCL version 21.0.3

ncclInvalidUsage: This usually reflects invalid usage of NCCL library (such as too many async ops, too many collectives at once, mixing streams in a group, etc).

可以考虑:

1. CUDA_VISIBLE_DEVICES=0,1,(举个例子)前面的变量名有没有敲错;

2. CUDA、nccl、pytorch版本是否兼容,我问了一下chatgpt我的是兼容的;

3. local_rank的问题,我是这一种,代码一开始默认设置了--local_rank=0,后面用的一直是这个args.local_rank,也没有更新,解决办法是在获取args之后,对它进行更新:

if 'LOCAL_RANK' not in os.environ:
    os.environ['LOCAL_RANK'] = str(args.local_rank)

args.local_rank = int(os.environ['LOCAL_RANK'])

以及其他博主的解决办法>_<

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值