【备份】ncclInvalidUsage: This usually reflects invalid usage of NCCL library

最新推荐文章于 2025-03-01 16:57:46 发布

原创最新推荐文章于 2025-03-01 16:57:46 发布 · 704 阅读

0 ·

CC 4.0 BY-SA版权

文章标签：

#python

使用分布式的时候报错：

RuntimeError: NCCL error in: ../torch/csrc/distributed/c10d/ProcessGroupNCCL.cpp:957, invalid usage, NCCL version 21.0.3

ncclInvalidUsage: This usually reflects invalid usage of NCCL library (such as too many async ops, too many collectives at once, mixing streams in a group, etc).

可以考虑：

1. CUDA_VISIBLE_DEVICES=0,1，（举个例子）前面的变量名有没有敲错；

2. CUDA、nccl、pytorch版本是否兼容，我问了一下chatgpt我的是兼容的；

3. local_rank的问题，我是这一种，代码一开始默认设置了--local_rank=0，后面用的一直是这个args.local_rank，也没有更新，解决办法是在获取args之后，对它进行更新：

if 'LOCAL_RANK' not in os.environ:
    os.environ['LOCAL_RANK'] = str(args.local_rank)

args.local_rank = int(os.environ['LOCAL_RANK'])

以及其他博主的解决办法>_<

确定要放弃本次机会？

福利倒计时

: :

立减 ¥

普通VIP年卡可用

立即使用

Mahoaki_

关注关注

2
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
分享

复制链接

分享到 QQ

分享到新浪微博

扫一扫
举报

举报

RuntimeError: NCCL error in: /pytorch/torch/lib/c10d/ProcessGroupNCCL.cpp:825, invalid usage

weixin_57632381的博客

07-09

1487

nccl报错表明在使用DistributedDataParallel （）分布式训练时出现了问题。问题解决，程序可运行！

RuntimeError: NCCL error in: ../torch/lib/c10d/ProcessGroupNCCL.cpp:859, invalid usage, NCCL version

lingchuxiao的博客

05-25

1万+

Traceback (most recent call last): File "tools/train_net.py", line 209, in <module> launch( File "/home/e300/code/detectron2/detectron2/engine/launch.py", line 67, in launch mp.spawn( File "/home/e300/anaconda3/lib/python3.8/site-packag

参与评论您还未登录，请先登录后发表或查看评论

RuntimeError: NCCL error in:torch/lib/c10d/ProcessGroupNCCL.cpp:514, invalid usage, NCCL version 踩坑

Alex.W.的机器学习之路

10-29

5364

运行pytorch分布式任务时，可能在执行dist.barrier()这条代码时会触发NCCL错误：RuntimeError: NCCL error in: ../torch/lib/c10d/ProcessGroupNCCL.cpp:514, invalid usage, NCCL version。

VSR dataset

leefly072的博客

07-08

2031

123

Ubuntu20运行SegNeXt代码提取道路水体(二)——SegNeXt源代码安装到测试环境配置全过程摸索

Laney_Midory的博客

12-08

2708

这里忘记如何配置的vscode的小伙伴可以查看我的这篇文章。我们在（一）已经安装了mmsegmentation。首先我们在第一篇里面已经下载了SegNeXt代码。我们先安装一下里面提到的torchprofile。打开vscode查看一下train的代码。我详细介绍了怎么查询自己的虚拟环境。然后按照他的语句进行源代码编译。其实只要这个语句就能安装。接下来继续按照他的教程走。接下来去下载一下他的数据。以及如何配置vscode。查看readme文件。

安装错误_ImportError: cannot import name ‘XXX‘循环引用绕晕TT(deepsolo)

qq_51070956的博客

12-03

1903

显然，有两个module，一个是adet.evaluation，一个是adet.evaluation.text_evaluation_all。主要就是这条语句出错，看了一下 rapidfuzz的_init_ .py文件，根本没有string_metric这个函数或者是什么别的东西。学到的，import的可能是个py文件，逐层import, 最终应该是某个py文件里的function。这样可以避免，导入text_eval_script.py两个文件，真正的错误在这两个文件里，

[rank0]: ncclInvalidUsage: This usually reflects invalid usage of NCCL library. [rank0]: Last error: [rank0]: Duplicate GPU detected : rank 0 and rank 1 both on CUDA device 2000什么问题

03-21

好的，我现在要解决用户遇到的NCCL错误：“[rank0]: ncclInvalidUsage: This usually reflects invalid usage of NCCL library. [rank0]: Last error: [rank0]: Duplicate GPU detected : rank 0 and rank 1 both on...

nccl-test

最新发布

06-09

bld/pytorch_1640811805959/work/torch/csrc/distributed/c10d/ProcessGroupNCCL.cpp:957, invalid usage, NCCL version 21.0.3 ncclInvalidUsage: This usually reflects invalid usage of NCCL library (such as ...

NCCL 故障排除一

s_sunnyy的博客

01-10

1万+

官方文档 http://docs.nvidia.com/deeplearning/sdk/nccl-developer-guide/index.html#troubleshooting ======================================================================== 5. Troubleshooting NCCL 故障排

torch.distributed.DistBackendError: NCCL error in: ../torch/csrc/distributed/c10d/ProcessGroupNCCL.

jacke121的专栏

03-28

7622

torch.distributed.DistBackendError: NCCL error in: ../torch/csrc/distributed/c10d/ProcessGroupNCCL.

torch.distributed.DistBackendError: NCCL error in:

m0_47192953的博客

04-25

2415

查看eno，有的人是eno，查看docker之后第一组。在deepspeed训练模型中存在。

【踩坑日志】解决CU118环境下RuntimeError: NCCL error: invalid usage

kabuto_hui的博客

03-01

2338

本博客主要记录了CU118环境下，出现报错信息为的解决方案。

单机多卡训练报错NCCL版本有问题

weixin_42896263的博客

01-09

4136

增加环境变量NCCL_SOCKET_IFNAME=eth2。这个不知道什么原因，然后解决方法是。

unhandled cuda error, NCCL version 2.10.3报错解决

a_145133的博客

05-08

4035

这个警告并不会导致代码运行中止，但是给了我启发，我觉得可能就是torch版本与cuda版本不匹配，自然与NCCL也不匹配，于是我删除了torch，使用pytorch官网提供的与本电脑匹配的安装命令行来安装，安装后果然问题解决。在运行这个模型时，我是直接使用require.txt来配置环境的，但是使用这个配置环境是比较死板的，并没有考虑到每个人的电脑本身的各项参数配置。分析：NCCL:一般来是是在配置cuda时就已经配置好了对应版本的NCCL了。之后根据pytorch官网给的命令安装pytorch即可。

使用pytorch分布式进行训练的时候发生的错误

u013157943的博客

05-25

4001

在进行分布式训练的时候遇到这个错，不知道怎么解决，先记录一下 Traceback (most recent call last): File "my_train.py", line 194, in <module> main(parser.parse_args()) File "my_train.py", line 75, in main backbone = torch.nn.parallel.DistributedDataParallel( File "/roo

mmcv NCCL 报错 mmcv/_ext.cpython-37m-x86_64-linux-gnu.so: undefined symbol, RuntimeError: NCCL error i

Hello Word!

01-12

2042

【代码】mmcv报错 mmcv/_ext.cpython-37m-x86_64-linux-gnu.so: undefined symbol。

RuntimeError: NCCL error in: /pytorch/torch/lib/c10d/ProcessGroupNCCL.cpp:784 torch

qq_40630902的博客

07-20

8046

-- Process 6 terminated with the following error: Traceback (most recent call last): File "/media/home/intern/anaconda3/envs/torch17/lib/python3.7/site-packages/torch/multiprocessing/spawn.py", line 19, in _wrap fn(i, *args) File "/media/home/inter

RuntimeError: NCCL error in: /pytorch/torch/lib/c10d/ProcessGroupNCCL.cpp:784, unhandled system erro