一、术语与基础
大模型训练一般都是用单机 8 卡 GPU 主机组成集群,机型包括 8*{A100,A800,H100,H800}
。 下面一台典型 8*A100 GPU 的主机内硬件拓扑:

本节将基于这张图来介绍一些概念和术语,有基础的可直接跳过。
1.1 PCIe 交换芯片
CPU、内存、存储(NVME)、GPU、网卡等支持 PICe 的设备,都可以连接到 PCIe 总线或专门的 PCIe 交换芯片,实现互联互通。
PCIe 目前有 5 代产品,最新的是 Gen5
。
1.2 NVLink
(1)定义
Wikipedia 上 NVLink 上的定义:
NVLink is a wire-based serial multi-lane near-range communications link developed by Nvidia. Unlike PCI Express, a device can consist of multiple NVLinks, and devices use mesh networking to communicate instead of a central hub. The protocol was first announced in March 2014 and uses a proprietary high-speed signaling interconnect (NVHS).
简单总结:同主机内不同 GPU 之间的一种高速互联方式,
- 是一种短距离通信链路,保证包的成功传输,更高性能,替代 PCIe,
- 支持多 lane,link 带宽随 lane 数量线性增长,
- 同一台 node 内的 GPU 通过 NVLink 以 full-mesh 方式(类似 spine-leaf)互联,
- NVIDIA 专利技术。
(2)演进:1/2/3/4 代
主要区别是单条 NVLink 链路的 lane 数量、每个 lane 的带宽(图中给的都是双向带宽)等:

例如:
- A100 是
2 lanes/NVSwitch * 6 NVSwitch * 50GB/s/lane= 600GB/s
双向带宽(单向 300GB/s)。注意:这是一个 GPU 到所有 NVSwitch 的总带宽; - A800 被阉割了 4 条 lane,所以是
8 lane * 50GB/s/lane = 400GB/s
双向带宽(单向 200GB/s)。
(3)监控
基于 DCGM 可以采集到实时 NVLink 带宽:

1.3 NVSwitch
还是参考下图,

NVSwitch 是 NVIDIA 的一款交换芯片,封装在 GPU module 上,并不是主机外的独立交换机。
下面是真机图,浪潮的机器,图中 8 个盒子就是 8 片 A100,右边的 6 块超厚散热片下面就是 NVSwitch 芯片:

1.4 NVLink Switch
NVSwitch
听名字像是交换机,但实际上是 GPU module 上的交换芯片,用来连接同一台主机内的 GPU。
2022 年,NVIDIA 把这块芯片拿出来真的做成了交换机,叫 NVLink Switch
[3], 用来跨主机连接 GPU 设备。
这俩名字很容易让人混淆。
1.5 HBM (High Bandwidth Memory)
(1)由来
传统上,GPU 显存和普通内存(DDR)一样插在主板上,通过 PCIe 连接到处理器(CPU、GPU), 因此速度瓶颈在 PCIe,Gen4 是 64GB/s,Gen5 是 128GB/s。
因此,一些 GPU 厂商(不是只有 NVIDIA 一家这么做)将将多个 DDR 芯片堆叠之后与 GPU 芯片封装到一起 (后文讲到 H100 时有图),这样每片 GPU 和它自己的显存交互时,就不用再去 PCIe 交换芯片绕一圈,速度最高可以提升一个量级。 这种“高带宽内存”(High Bandwidth Memory)缩写就是 HBM。
现在 CPU 也有用 HBM 的了,比如 Intel Xeon CPU Max Series 就自带了 64GB HBM2e。
HBM 的市场目前被 SK 海力士和三星等韩国公司垄断。
(2)演进:HBM 1/2/2e/3/3e
From wikipedia HBM,
Bandwidth | Year | GPU | |
---|---|---|---|
HBM | 128GB/s/package | ||
HBM2 | 256GB/s/package | 2016 | V100 |
HBM2e | ~450GB/s | 2018 | A100, ~2TB/s ; 华为 Ascend 910B |
HBM3 | 600GB/s/site | 2020 | H100, 3.35TB/s |
HBM3e | ~1TB/s | 2023 | H200 , 4.8TB/s |

- AMD MI300X 采用 192GB HBM3 方案,带宽
5.2TB/s
; - HBM3e 是 HBM3 的增强版,速度从 6.4GT/s 到 8GT/s。
1.6 带宽单位
大规模 GPU 训练的性能与数据传输速度有直接关系。这里面涉及到很多链路,比如 PCIe 带宽、内存带宽、NVLink 带宽、HBM 带宽、网络带宽等等。
- 网络习惯用
bits/second (b/s)
表示之外,并且一般说的都是单向(TX/RX); - 其他模块带宽基本用
byte/sedond (B/s)
或transactions/second (T/s)
表示,并且一般都是双向总带宽。
比较带宽时注意区分和转换。
二、典型 8*A100/8*A800
主机
2.1 主机内拓扑:2-2-4-6-8-8
- 2 片 CPU(及两边的内存,NUMA)
- 2 张存储网卡(访问分布式存储,带内管理等)
- 4 个 PCIe Gen4 Switch 芯片
- 6 个 NVSwitch 芯片
- 8 个 GPU
- 8 个 GPU 专属网卡

下面这个图画的更专业,需要更多细节的可参考:

存储网卡
通过 PCIe 直连 CPU。用途:
- 从分布式存储读写数据,例如读训练数据、写 checkpoint 等;
- 正常的 node 管理,ssh,监控采集等等。
官方推荐用 BF3 DPU。但其实只要带宽达标,用什么都行。组网经济点的话用 RoCE,追求最好的性能用 IB。
NVSwitch fabric:intra-node full-mesh
8 个 GPU 通过 6 个 NVSwitch 芯片 full-mesh 连接,这个 full-mesh 也叫 NVSwitch fabric
; full-mesh 里面的每根线的带宽是 n * bw-per-nvlink-lane,
- A100 用的 NVLink3,
50GB/s/lane
,所以 full-mesh 里的每条线就是12*50GB/s=600GB/s
,注意这个是双向带宽,单向只有 300GB/s。 - A800 是阉割版,12 lane 变成 8 lane,所以每条线 8*50GB/s=400GB/s,单向 200GB/s。
用 nvidia-smi topo
查看拓扑
下面是一台 8*A800 机器上 nvidia-smi
显示的实际拓扑(网卡两两做了 bond,NIC 0~3 都是 bond):
- GPU 之间(左上角区域):都是
NV8
,表示 8 条 NVLink 连接; -
NIC 之间:
- 在同一片 CPU 上:
NODE
,表示不需要跨 NUMA,但需要跨 PCIe 交换芯片; - 不在同一片 CPU 上:
SYS
,表示需要跨 NUMA;
- 在同一片 CPU 上:
-
GPU 和 NIC 之间:
- 在同一片 CPU 上,且在同一个 PCIe Switch 芯片下面:
PXB
,表示只需要跨 PCIe 交换芯片; - 在同一片 CPU 上,且不在同一个 PCIe Switch 芯片下面:
NODE
,表示需要跨 PCIe 交换芯片和 PCIe Host Bridge; - 不在同一片 CPU 上:
SYS
,表示需要跨 NUMA、PCIe 交换芯片,距离最远。
- 在同一片 CPU 上,且在同一个 PCIe Switch 芯片下面:
1.2 GPU 训练集群组网:IDC GPU fabirc
计算网络
GPU 网卡直连到置顶交换机(leaf),leaf 通过 full-mesh 连接到 spine,形成跨主机 GPU 计算网络。
- 这个网络的目的是 GPU 与其他 node 的 GPU 交换数据;
- 每个 GPU 和自己的网卡之间通过 PCIe 交换芯片连接:
GPU <--> PCIe Switch <--> NIC
。
存储网络
直连 CPU 的两张网卡,连接到另一张网络里,主要作用是读写数据,以及 SSH 管理等等。
RoCE vs. InfiniBand
不管是计算网络还是存储网络,都需要 RDMA 才能实现 AI 所需的高性能。RDMA 目前有两种选择:
- RoCEv2:公有云卖的 8 卡 GPU 主机基本都是这种网络,比如 CX6
8*100Gbps
配置;在性能达标的前提下,(相对)便宜; - InfiniBand (IB):同等网卡带宽下,性能比 RoCEv2 好 20% 以上,但是价格贵一倍。
1.3 数据链路带宽瓶颈分析

几个关键链路带宽都标在图上了,
- 同主机 GPU 之间:走 NVLink,双向 600GB/s,单向
300GB/s
; - 同主机 GPU 和自己的网卡之间:走 PICe Gen4 Switch 芯片,双向 64GB/s,单向
32GB/s
; -
跨主机 GPU 之间:需要通过网卡收发数据,这个就看网卡带宽了,目前国内 A100/A800 机型配套的主流带宽是(单向)
100Gbps=12.5GB/s
。 所以跨机通信相比主机内通信性能要下降很多。200Gbps==25GB/s
:已经接近 PCIe Gen4 的单向带宽;400Gbps==50GB/s
:已经超过 PCIe Gen4 的单向带宽。
所以在这种机型里用 400Gbps 网卡作用不大,400Gbps 需要 PCIe Gen5 性能才能发挥出来。
3 典型 8*H100/8*H800
主机
GPU Board Form Factor 分为两种类型:
- PCIe Gen5
- SXM5:性能更高一些
3.1 H100 芯片 layout
下面是一片 H100 GPU 芯片的内部结构:

4nm
工艺;- 最下面一排是 18 根 Gen4 NVLink;双向总带宽
18 lanes * 50GB/s/lane = 900GB/s
; - 中间蓝色的是 L2 cache;
- 左右两侧是
HBM
芯片,即显存;
3.2 主机内硬件拓扑
跟 A100 8 卡机结构大致类似,区别:
-
NVSwitch 芯片从 6 个减少到了 4 个;真机图如下,
-
与 CPU 的互联从 PCIe Gen4 x16 升级到
PCIe Gen5 x16
,双向带宽128GB/s
;
Image source: exxactcorp.com
3.3 组网
与 A100 也类似,只是标配改成了 400Gbps
的 CX7 网卡, 否则网络带宽与 PCIe Switch 和 NVLink/NVSwitch 之间的差距更大了。
四、智算网络解决方案
4.1 AI智算中心网络建设目标及需求
智算中心网络建设目标: 缩短训练时间,提升算力效率
-
大规模组网
AI训练需要大规模GPU集群组网和分布式并行计算解决集群规模与GPU效率的平衡,网络需要支持数千甚至上万卡GPU集群建设 -
高带宽网络
大模型的机间网络通信占比提升,高带宽接入及高带宽利用率成为影响训练效率的网络关键指标 -
简部署易运维
智算中心建设周期紧,需要业务快速上线,网络故障影响大,需要简部署易运维的网络环境
4.2 智算网络解决方案整体框架
基于以太网方案统一承载多业务, 统一网络技术栈,降低运维成本
4.3 算力网需要关注的关键技术
关健技术1:RDMA无损网络技术
-
通过RDMA技术, 实现高速低时延的组网;
-
通过PFC+ECN实现RDMA的无损传输;
关键技术2:多路径负载均衡技术
-
传统HASH采用一条链路传输, 负载分担不均;
-
通过DLB+AR技术, 实现高效负载, 提升带宽利用率
关键技术3:智能运维采集技术
-
通过GRPC和ERSPAN技术, 对网络关键信息实时采集, 实现网络可视化和故障快速定位。
4.4 算力网络架构设计
(1)二级多轨组网,中小规模(<8K规模)
采用两层8轨道组网(8K规模)
- Spine层有64个平面,每个平面1台Spine,跨轨道通过Spine层通信;
- Leaf层组成8轨道,同号网卡间AI训练流量规划在同一轨道中;
- 每组包括8台Leaf,收敛比均为1:1;
- Server最多有16组,每组有64台server,共计1024台server
类型 | 规格 | 不同规模对应的数量 | ||||
GPU | H100 | 512 | 1024 | 2048 | 4096 | 8192 |
AI Server | HGX H100 | 64 | 128 | 256 | 512 | 1024 |
TH5 Switch TH4 Switch | 128*400G 64*400G | Spine * 4 | Spine * 8 | Spine * 16 | Spine * 32 | Spine * 64 |
Leaf * 8 | Leaf * 16 | Leaf * 32 | Leaf * 64 | Leaf * 128 | ||
光模块-网卡 | OSFP 400G | 512 | 1024 | 2048 | 4096 | 8192 |
光模块-网络 | QDD 400G | 1536 | 3072 | 6144 | 12288 | 24576 |
备注:DGX H100 Server: 8 x H100 GPU, 8 x 400G CX7 NIC
(2)三级多轨组网,大规模(32K规模)
采用三层8轨道组网(32K规模)
• Spine层有64个平面,每个平面4台Spine,跨轨道通过Spine层通信;
• Leaf层和Tor层组成8轨道,同号网卡间AI训练流量规划在同一轨道中;
• 每个轨道包括64台Tor和64台Leaf,收敛比均为1:1;
• Server有64组,每组有64台server,共计4096台server
类型 | 规格 | 不同规模对应的数量 | |
GPU | H100 | 16384 | 32768 |
AI Server | HGX H100 | 2048 | 4096 |
TH5 Switch | 128*400G | 640 | 1280 |
光模块-网卡 | OSFP 400G | 16384 | 32768 |
光模块-网络 | QDD 400G | 81920 | 163840 |
备注:DGX H100 Server: 8 x H100 GPU, 8 x 400G CX7 NIC
4.5 RDMA无损网络硬件实现方案
(1)IB(Infiniband)
IB,即Infiniband,是一种专门为RDMA设计的网络,从硬件级别保证网络无损,提供极高的带宽和极低的时延,但是成本高,需要支持IB的网卡和交换机。Infiniband交换机是特定厂家提供的专用产品(主流厂商有NVIDIA(Mellanox)、Intel、Cisco、HPE 等),采用私有协议,而目前绝大多数环境均采用IP以太网络,采用Infiniband无法满足互通性需求,同时封闭性架构存在厂商锁定问题。
(2)ROCE
RoCE,即RDMA over Converfied Ethernet,基于以太网实现的RDMA网络,它允许数据从一台主机传输到另一台主机,减少了CPU的操作负载。消耗的资源比 iWARP 少,支持的特性比 iWARP 多,可以使用普通的以太网交换机(需要支持无损以太网技术),但是需要支持RoCE的网卡。RoCE目前有两个版本
-
RoCE v1:是一种链路层协议,使用RoCE v1协议通信的双方必须在同一个二层网络内,允许在同一个广播域下的任意两台主机直接访问
-
RoCE v2:是一种网络层协议,使用RoCE v2协议的包可以被三层路由,具有更好的扩展性,基于UDP协议封装,允许不同广播域下的主机通过三层访问
(3)iWARP
iWARP,即internet Wide Area RDMA Protocol,基于TCP实现的RDMA网络,它使用TCP来实现可靠的数据传输,但由于TCP协议限制,其性能上丢失了大部分RDMA的优势。相比RoCE,在大型组网的情况下,iWARP的大量TCP连接会占用大量的内存资源,对系统规格要求更高,可以使用普通的以太网交换机,但是需要支持iWARP的网卡。
(4)对比
优缺点说明
性能
- RoCE提高了企业数据中心的速度和能力,在不更换以太网基础设施情况下降低总体成本
- Infiniband使用串行链路和总线一次1bit地发送数据,从而实现更快、更有效的通信
- iWARP提供了与RoCE类似的低延迟和高吞吐量的传输能力,但性能略逊于 InfiniBand 和 RoCE
扩展性
- 三种RDMA网络协议都具有很高的可扩展性和灵活性,其中Infiniband协议扩展性最高,Infiniband一个子网可以支持成千上万个节点,它提供了相对简单和可扩展架构,通过Infiniband路由器创建几乎无限的集群大小。
维护难度
- 三种RDMA网络协议中,其中Infiniband维护难度及成本最高,Infiniband需要采购特定厂家生产的IB网卡和IB交换机,使用了私有协议作为专用网络技术,无法继承用户在IP网络运维的积累;
- 当前Infiniband市场空间占比很少,业内有经验的运维人员严重缺乏,网络一旦出现故障,无法及时修复,运营成本极高,目前基于传统以太网承载RDMA(RoCE v2)成为RDMA大规模应用的必要趋势。
总结说明
-
对于追求最高性能的网络通信,无疑首选是Infiniband
-
对于追求更高性能、更易于管理和成本有限的网络通信,无疑首选是RoCE
4.6 主流交换机硬件选型
(1)IB(InfiniBand)交换机
QM9700/QM9790 - Mellanox Quantum-2™ NDR 交换机:
-
基于 NVIDIA Quantum-2 的 QM9700/QM9790 交换机系统在 1U 标准机箱设计中提供64 个 NDR 400Gb/s InfiniBand 端口。单个交换机可承载每秒 51.2 太比特 (Tb/s) 的聚合双向吞吐量,每秒处理超过 665 亿个数据包 (BPPS) 的容量
-
通过实施 NVIDIA 端口分割技术,QM9700/QM9790 交换机提供了 200Gb/s (NDR200) 数据速度的双密度基数,从而降低了网络设计和网络拓扑的成本。NVIDIA 提供市场上更密集的架顶式 (TOR) 交换机,支持 128 个 200Gb/s 端口
QM8700/QM8790 - Mellanox Quantum™ HDR 交换机
-
Quantum系列盒式交换机有QM8700和QM8790两种,两种型号交换机区别在管理方式上,QM8700有control口支持带外管理,QM8790则需要NVIDIA Unified Fabric Manager (UFM) platform进行管理;
-
使用 Mellanox 的 Quantum InfiniBand 交换机设备构建的 QM8700/QM8790 在 1U 交换机中提供 40 个 HDR 200Gb/s端口,每个端口具有全双向带宽;
-
QM8700/QM8790 结合 Mellanox ConnectX®-6 适配器卡支持 HDR100。通过利用各端口上的两对双通道,QM87可以支持最多 80 个 100G 端口。
(2)以太网交换机
锐捷:RG-S6980-64QC
-
芯片: Tomahawk4
-
端口: 64 x 400G
锐捷:RG-S6980-128QC
-
芯片: Tomahawk5
-
端口: 128 x 400G
H3C S9827-128DH
-
芯片: Tomahawk5
-
端口: 128 x 400G
H3C S9825-64D
-
芯片: Tomahawk4
-
端口: 64 x 400G
Cisco Nexus 9400
-
单线卡支持 16个400G端口,多线卡配置可接近 128个400G端口(例如,8张16端口线卡提供128个400G端口)。
-
支持端口拆分(1个400G拆分为2x200G或4x100G),可实现 128个200G端口。
Arista 7060CX5-64
-
提供 64 个 400G 端口(QSFP-DD 或 OSFP)
-
通过端口拆分(1 个 400G 端口拆分为 2x200G),可实现 128 个 200G 端口
-
每个 400G 端口还支持 4x100G 拆分,可实现 256 个 100G 端口
Arista 7500R3
-
支持高达 288 个 400G 端口(QSFP-DD 或 OSFP)
-
单线卡支持 24 个 400G 端口,通过多线卡配置可实现 128 个 400G 端口(例如,6 张 24 端口线卡提供 144 个 400G 端口)
-
支持端口拆分,1 个 400G 端口可拆分为 4x100G 或 2x200G,灵活实现 128 个 200G 端口