内核级异步集体通信的设计与实现
1. 非阻塞集体通信实现问题
非阻塞集体通信的实现并非易事,主要受限于通信推进(progression)。大多数集体通信实现由一系列点对点通信组成,这些通信通过数据依赖相互连接,而推进就是连接这些点对点通信的过程。MPI 库必须在所有依赖通信完成后才能继续集体通信。目前有两种实现方式:
- 线程实现 :为通信创建一个线程,并在该线程中执行推进操作。例如 LibNBC 实现就采用了这种方法。其优点是通信可与运行在另一个线程上的计算异步执行,理论上通信线程独立于计算线程,推进操作能在合适的时间执行。然而,由于 CPU 核心数量的限制,实际情况并非如此。用户通常会创建与 CPU 核心数量相同的 MPI 进程,若 MPI 库再创建通信线程,活动线程数量会超过核心数量,导致频繁的上下文切换。若上下文切换由操作系统执行,且操作系统不了解线程间的依赖关系,切换时机可能并非最优,从而造成 CPU 时间的浪费和通信延迟。
- 显式推进 :在 MPI 库中实现推进操作,即集体通信的推进仅在应用程序调用 MPI 函数(如 MPI Test 和 MPI Wait)时进行。这种方法不创建线程,因此不会出现上下文切换问题。但如果应用程序不调用任何 MPI 函数,推进操作就不会进行,导致计算和通信无法重叠。即使发布了非阻塞集体通信,在计算过程中通信也不会推进。只有当计算完成并调用 MPI Wait 等待非阻塞集体通信完成时,推进操作才会开始。若用户为避免错过推进时机而频繁调用推进操作,会导致 CPU 时间的损失。例如 Linpack 基准程序就采用了这种显式推进方法,在本地计算期间,使用 MP