基于CPU-加速器协同调度的CNN加速技术解析

# 基于CPU-加速器协同调度的CNN加速技术解析 ## 1. 引言在CNN计算中，为了提高计算效率，采用CPU - 加速器协同调度技术是一种有效的方法。该技术通过合理分配任务，充分利用加速器和CPU的资源，从而提升整体性能。下面将详细介绍其原理、模型以及实验结果。 ## 2. CPU - 加速器协同调度概述在协同调度中，会将“K”个3D滤波器张量分配给CNN加速器，用于生成“K”个输出通道；将“OC - K”个滤波器张量分配给CPU。在运行时，由CPU执行的协同执行控制模块会启动加速器和CPU针对给定输出通道的协同执行。CONV层操作包括卷积、批量归一化（BatchNorm）和激活。在加速器和CPU分别生成“K”和“OC - K”个2D输出特征图（OFMs）后，将这些OFMs聚合以组成完整的3D OFM张量。 ## 3. 基于线性回归的延迟模型 ### 3.1 加速器延迟模型加速器延迟可分为计算延迟、数据传输延迟和一致性延迟三个部分。 - **计算延迟**：主要取决于生成OFMs所需的操作数量。首先计算单位延迟$L_{uACC}$，它对应于1PE加速器生成一个OFM元素时的计算延迟，计算公式为： $L_{uACC} = \alpha_{comp} \times Size_{FT} + \beta_{comp}$ 其中，$Size_{FT}$表示一个3D滤波器张量中的元素数量。$\alpha_{comp}$和$\beta_{comp}$通过线性回归分析确定。然后，可扩展计算生成$N_F$个OFMs时的加速器计算延迟$L_{comp}$： $L_{comp} = L_{uACC} \times Size_{OFM} \times \lceil\frac{N_F}{N_{PE}}\rceil$ 其中，$Size_{OFM}$是一个2D OFM中的元素数量，$N_F$是某个CONV层中的输出通道总数，$N_{PE}$是加速器中的处理元素（PE）数量。 - **传输延迟**：与要传输的数据大小线性相关，可通过以下方程估计： $L_{tran} = \alpha_{tran} \times Size_{Data} + \beta_{tran}$ 其中，$Size_{Data}$表示要传输的数据的总大小，计算公式为： $Size_{Data} = Size_{IFMs} + Size_{\gamma} + Size_{\beta} + Size_{FT} \times N_F + Size_{OFM} \times N_F$ - **一致性延迟**：由缓存刷新和缓存失效两部分组成。缓存刷新延迟$L_{fl}$和缓存失效延迟$L_{inv}$分别通过以下方程估计： $L_{fl} = \alpha_{fl} \times (Size_{IFMs} + Size_{\gamma} + Size_{\beta} + Size_{FT} \times N_F) + \beta_{fl}$ $L_{inv} = \alpha_{inv} \times Size_{OFM} \times N_F + \beta_{inv}$ 总一致性延迟$L_{cohr} = L_{fl} + L_{inv}$。 - **延迟聚合**：加速器的总延迟$L_{ACC}$为计算、传输和一致性延迟之和： $L_{ACC} = L_{comp} + L_{tran} + L_{cohr}$ ### 3.2 CPU延迟模型对于CPU，使用统一的延迟模型，不区分数据传输和计算延迟。CPU单位延迟$L_{uCPU}$可通过以下公式计算： $L_{uCPU} = \alpha_{CPU} \times Size_{FT} + \beta_{CPU}$ 总CONV层延迟$L_{CPU}$为： $L_{CPU} = L_{uCPU} \times Size_{OFM} \times N_F$ ## 4. 通道分配为了充分利用系统中的加速器和CPU，需要分配输出通道，使加速器和CPU的执行时间（几乎）相等。使用以下公式为加速器分配输出通道： $N_{FA} = \lceil(\frac{L_{CPU}}{L_{ACC} + L_{CPU}}) \times N_F\rceil$ 其中，$N_{FA}$表示将在加速器中处理的输出通道数量。其余的滤波器张量将在CPU中处理，即： $N_{FC} = N_F - N_{FA}$ ## 5. 原型实现在Darknet框架中实现了所提出的协同调度技术，并使用四个现成的FPGA - SoC平台（Ultra96、Zed、ZCU104和ZCU106）进行验证。这些平台的C

最低0.47元/天解锁专栏

赠100次下载

继续阅读点击查看下一篇

400次会员资源下载次数

300万+ 优质博客文章

1000万+ 优质下载资源

1000万+ 优质文库回答

复制全文

基于CPU-加速器协同调度的CNN加速技术解析

相关推荐

专栏目录

基于CPU-加速器协同调度的CNN加速技术解析

相关推荐

基于FPGA的CNN自适应映射技术-inna1.0

基于FPGA的多核可扩展卷积加速器设计.pdf

云计算-面向绿色通道检查的高效车型识别方法及其GPUCPU协同加速计算.pdf

卷积神经网络加速的硬件/软件协同设计与CPU-加速器协同调度

卷积神经网络加速：CPU与加速器协同调度技术解析

FPGA深度学习加速器实现CNN自适应映射技术

FPGA深度学习加速器：inna1.0自适应映射技术解析

CNN加速的硬件/软件协同设计与调度

卷积神经网络（CNN）加速技术的全面解析与未来展望

稀疏卷积神经网络加速器：Sparse-PE与Phantom的技术解析

科技服务机构如何借助AI+数智应用创新提升核心竞争力？.docx

专栏目录

最新推荐

微纳流体对流与传热应用研究

MATLAB目标对象管理与配置详解

自激感应发电机稳态分析与电压控制

TypeScript高级特性与Cypress测试实践

凸轮与从动件机构的分析与应用

磁电六铁氧体薄膜的ATLAD沉积及其特性

电力系统经济调度与动态经济调度研究

MATLAB数值技术：拟合、微分与积分

可再生能源技术中的Simulink建模与应用

克里金插值与图像处理：原理、方法及应用