稀疏CNN加速器的最新进展与原位解压缩卷积加速器实现

### 稀疏CNN加速器的最新进展与原位解压缩卷积加速器实现 #### 1. 稀疏矩阵乘法硬件架构稀疏矩阵乘法（SpMM）在众多新兴应用中频繁使用，因此出现了多种相关的硬件架构。常见的矩阵乘法方法有内积法、外积法和行积法，下面分别介绍不同方法及其相关架构。 ##### 1.1 内积法相关架构内积法是一种广为人知且直观的矩阵乘法方法。 - **SparTen架构**：采用内积法，引入了带位掩码的高效内连接（标记非零元素位置），通过按位与操作识别无效操作，还提出了基于排序的贪婪负载均衡技术用于处理单元（PE）。 - **SIGMA架构**：同样基于内积法，引入了点积引擎（Flex - DPE），利用树状拓扑和前向加法器网络支持灵活互连，采用基于位图的格式作为压缩数据格式，但仅加载的操作数矩阵采用压缩格式，流矩阵采用密集格式。不过，内积法本质上需要索引匹配（或内连接），这对于具有成本效益的硬件设计和实现并不理想。 ##### 1.2 外积法相关架构为了去除复杂的索引匹配过程，提出了一些外积法相关架构。 - **SpArch架构**：利用外积法进行稀疏矩阵乘法，采用压缩矩阵表示法压缩行中的非零元素，使用基于霍夫曼树的调度器，在生成部分结果矩阵时，先产生非零元素较少的矩阵，以提高内存使用效率并减少内存带宽需求。 - **SPAGHETTI架构**：也采用外积法，输入矩阵和输出矩阵使用不同的压缩格式（输入为CSR和压缩稀疏列，输出为COO坐标格式），但COO格式未排序，难以原位使用，且外积法通常需要大量的部分结果矩阵存储空间。 ##### 1.3 行积法相关架构为了弥补内积法和外积法的不足，提出了行积法相关架构。 - **MatRaptor架构**：基于行积法，采用新的压缩格式——通道循环稀疏行（C2SR），利用矩阵A每行乘法可并行的特点，先进行行乘法，再通过主队列和辅助队列进行排序和累加。 - **Gamma架构**：同样基于行积法，利用行级并行性，采用Fiber缓存存储非零元素及其坐标。 - **另一种行积法架构**：采用广泛用于表示SpMM的CSR格式，硬件加速器对CSR格式的操作数矩阵进行乘法运算，生成CSR格式的输出矩阵，提出的负载均衡技术可提高PE之间的并行性。 #### 2. 原位解压缩和卷积的CNN加速器为了减少数据传输开销，实现CNN加速，采用了一种硬件/软件协同设计方法。该加速器基于无损压缩输入特征图（IFM），不会造成精度损失。 ##### 2.1 整体流程 - **软件部分**：使用压缩技术将未压缩的IFM转换为压缩格式，然后通过直接内存访问（DMA）发送到硬件加速器的片上内存，权重数据不压缩，直接发送到硬件加速器。 - **硬件部分**：硬件加速器使用权重和压缩后的IFM执行卷积层操作。 ```mermaid graph LR classDef process fill:#E5F6FF,stroke:#73A6FF,stroke-width:2px; A(输入特征图IFMs):::process --> B(IFM压缩):::process C(权重):::process --> D(硬件加速器):::process B ```

最低0.47元/天解锁专栏

赠100次下载

继续阅读点击查看下一篇

400次会员资源下载次数

300万+ 优质博客文章

1000万+ 优质下载资源

1000万+ 优质文库回答

复制全文

稀疏CNN加速器的最新进展与原位解压缩卷积加速器实现

相关推荐

专栏目录

稀疏CNN加速器的最新进展与原位解压缩卷积加速器实现

相关推荐

CNN卷积神经网络FPGA加速器实现：从软件到硬件的深度学习部署

CNN_CNN加速器_CNN_CNNVerilog_verilogcnn_数字电路_

FPGA实现类YOLO的轻量化CNN加速器在zynq7020平台上的物品检测与特定识别验证 2025版

稀疏CNN加速器的最新进展与原位解压缩卷积加速器

卷积神经网络加速器：原理、架构与应用探索

卷积神经网络压缩编码技术进展

卷积神经网络的高效处理与压缩编码技术

卷积神经网络压缩编码技术：特征图与权重的高效处理

MATLAB图像处理：2小时精通图像识别与增强技术

DSP技术全方位揭秘：15个关键应用案例与优化技巧

ARM x_支持ARM，x86平台的嵌入式操作系统内核.zip

专栏目录

最新推荐

微纳流体对流与传热应用研究

凸轮与从动件机构的分析与应用

自激感应发电机稳态分析与电压控制

MATLAB数值技术：拟合、微分与积分

电力系统经济调度与动态经济调度研究

可再生能源技术中的Simulink建模与应用

克里金插值与图像处理：原理、方法及应用

TypeScript高级特性与Cypress测试实践

磁电六铁氧体薄膜的ATLAD沉积及其特性

MATLAB目标对象管理与配置详解