报错代码:
test@h20:~/nccl-tests$ ./build/all_reduce_perf -b 8 -e 512M -f 2 -g 1
# nThread 1 nGpus 1 minBytes 8 maxBytes 536870912 step: 2(factor) warmup iters: 5 iters: 20 agg iters: 1 validation: 1 graph: 0
#
# Using devices
h20: Test CUDA failure common.cu:1030 'system not yet initialized'
.. h20 pid 6238: Test failure common.cu:937
命令概述
这个命令用于运行 NCCL(NVIDIA Collective Communications Library)测试套件里的 all_reduce_perf
程序,其主要目的是评估 AllReduce 操作在 GPU 上的性能表现。AllReduce 操作是并行计算中一种关键的集体通信操作,它会对所有进程的数据进行归约,然后将结果广播给所有进程。
参数详解
-b 8
:
此参数代表测试所使用的最小消息大小,单位为字节(Byte)。这里设置为 8,意味着测试会从 8 字节的消息开始。-e 512M
:
该参数指定了测试的最大消息大小,单位同样是字节。其中,M