基于CPU-加速器协同调度的CNN加速技术解析
立即解锁
发布时间: 2025-08-31 00:09:44 阅读量: 8 订阅数: 14 AIGC 

# 基于CPU-加速器协同调度的CNN加速技术解析
## 1. 引言
在CNN计算中,为了提高计算效率,采用CPU - 加速器协同调度技术是一种有效的方法。该技术通过合理分配任务,充分利用加速器和CPU的资源,从而提升整体性能。下面将详细介绍其原理、模型以及实验结果。
## 2. CPU - 加速器协同调度概述
在协同调度中,会将“K”个3D滤波器张量分配给CNN加速器,用于生成“K”个输出通道;将“OC - K”个滤波器张量分配给CPU。在运行时,由CPU执行的协同执行控制模块会启动加速器和CPU针对给定输出通道的协同执行。CONV层操作包括卷积、批量归一化(BatchNorm)和激活。在加速器和CPU分别生成“K”和“OC - K”个2D输出特征图(OFMs)后,将这些OFMs聚合以组成完整的3D OFM张量。
## 3. 基于线性回归的延迟模型
### 3.1 加速器延迟模型
加速器延迟可分为计算延迟、数据传输延迟和一致性延迟三个部分。
- **计算延迟**:主要取决于生成OFMs所需的操作数量。首先计算单位延迟$L_{uACC}$,它对应于1PE加速器生成一个OFM元素时的计算延迟,计算公式为:
$L_{uACC} = \alpha_{comp} \times Size_{FT} + \beta_{comp}$
其中,$Size_{FT}$表示一个3D滤波器张量中的元素数量。$\alpha_{comp}$和$\beta_{comp}$通过线性回归分析确定。然后,可扩展计算生成$N_F$个OFMs时的加速器计算延迟$L_{comp}$:
$L_{comp} = L_{uACC} \times Size_{OFM} \times \lceil\frac{N_F}{N_{PE}}\rceil$
其中,$Size_{OFM}$是一个2D OFM中的元素数量,$N_F$是某个CONV层中的输出通道总数,$N_{PE}$是加速器中的处理元素(PE)数量。
- **传输延迟**:与要传输的数据大小线性相关,可通过以下方程估计:
$L_{tran} = \alpha_{tran} \times Size_{Data} + \beta_{tran}$
其中,$Size_{Data}$表示要传输的数据的总大小,计算公式为:
$Size_{Data} = Size_{IFMs} + Size_{\gamma} + Size_{\beta} + Size_{FT} \times N_F + Size_{OFM} \times N_F$
- **一致性延迟**:由缓存刷新和缓存失效两部分组成。缓存刷新延迟$L_{fl}$和缓存失效延迟$L_{inv}$分别通过以下方程估计:
$L_{fl} = \alpha_{fl} \times (Size_{IFMs} + Size_{\gamma} + Size_{\beta} + Size_{FT} \times N_F) + \beta_{fl}$
$L_{inv} = \alpha_{inv} \times Size_{OFM} \times N_F + \beta_{inv}$
总一致性延迟$L_{cohr} = L_{fl} + L_{inv}$。
- **延迟聚合**:加速器的总延迟$L_{ACC}$为计算、传输和一致性延迟之和:
$L_{ACC} = L_{comp} + L_{tran} + L_{cohr}$
### 3.2 CPU延迟模型
对于CPU,使用统一的延迟模型,不区分数据传输和计算延迟。CPU单位延迟$L_{uCPU}$可通过以下公式计算:
$L_{uCPU} = \alpha_{CPU} \times Size_{FT} + \beta_{CPU}$
总CONV层延迟$L_{CPU}$为:
$L_{CPU} = L_{uCPU} \times Size_{OFM} \times N_F$
## 4. 通道分配
为了充分利用系统中的加速器和CPU,需要分配输出通道,使加速器和CPU的执行时间(几乎)相等。使用以下公式为加速器分配输出通道:
$N_{FA} = \lceil(\frac{L_{CPU}}{L_{ACC} + L_{CPU}}) \times N_F\rceil$
其中,$N_{FA}$表示将在加速器中处理的输出通道数量。其余的滤波器张量将在CPU中处理,即:
$N_{FC} = N_F - N_{FA}$
## 5. 原型实现
在Darknet框架中实现了所提出的协同调度技术,并使用四个现成的FPGA - SoC平台(Ultra96、Zed、ZCU104和ZCU106)进行验证。这些平台的C
0
0
复制全文
相关推荐









