《LPE: Logarithm Posit Processing Element for Energy-Efficient Edge-Device Training》(一)
这篇文章提出了一种用于边缘设备训练的能效处理单元(LPE),其核心创新在于通过以下三种方式来解决能效和性能问题:
文章概述:
-
研究背景:
随着深度神经网络(DNN)的广泛应用,边缘设备上的训练需求日益增加。这是因为边缘设备上的训练可以在不传输大量数据且不涉及隐私问题的情况下提高模型的适应性。然而,边缘设备的计算和存储资源有限,采用传统的IEEE 754浮点格式(如FP16)进行DNN训练会导致高功耗和延迟。 -
主要贡献:
本文提出了一种新的处理单元LPE,通过三个创新设计,解决了边缘设备训练时面临的挑战:- Posit格式的数据存储:LPE采用Posit格式来存储操作数,使用较低的位宽(如8位Posit),同时提供灵活的精度和数据范围。相比传统的浮点数格式,这种方式能显著减少存储需求和内存访问能耗。
- 对数域计算:LPE将DNN训练中的复杂算术运算(如卷积层中的乘法、批量归一化层中的除法、平方、平方根运算)转换为对数域操作,减少了计算能量消耗,并提高了吞吐量。
- 双阶段浮点累加单元(TSAU):LPE采用双阶段浮点累加单元,使用低位宽的累加器来延伸计算范围,增强了精度并减少了功耗。
-
实验验证:
该设计在28nm CMOS工艺下进行了评估,结果表明与传统的FP16计算单元相比,LPE在功耗、面积和训练速度上都有显著改进。具体来说:- LPE的功耗和面积分别减少了1.81倍和1.35倍;
- 在训练过程中,LPE比FP16计算单元减少了1.97倍的能耗,并提供了1.68倍的加速;
- 与FP8相比,LPE的训练准确度提高了4.6%。
-
技术细节:
- Posit格式:LPE使用8位的Posit格式,结合动态改变的小数位长度来适应不同阶段的训练数据,能够在不同精度要求下保持较高的训练效果。
- 对数域计算:LPE将大部分复杂的乘法、除法等运算转换为对数域加法、减法和移位操作,这不仅减少了运算量,还降低了功耗。
- 双阶段累加单元(TSAU):TSAU设计能够在保证高精度的同时,使用低位宽的累加器,有效减少了累加过程中的功耗。
-
实验结果:
- LPE采用的8位Posit格式能比FP16格式节省58.2%的内存访问,而通过对数域运算,LPE能进一步减少能耗并提升计算吞吐量。
- 与现有的DNN处理器相比,LPE在功耗、面积和能效方面表现出色,尤其在边缘设备上,LPE展现了更优的性能和能效。
结论:
这篇文章通过提出LPE单元,成功地解决了边缘设备上进行DNN训练时的高功耗和低效能问题。LPE采用Posit格式和对数域计算技术,减少了内存访问、计算功耗,并提高了计算效率。经过实验验证,LPE在边缘设备上具有显著的能效优势,能够满足深度学习训练对低功耗和高性能的需求。
在这篇文章中,Logarithm(对数)指的是一种将数值转换为对数域进行计算的方法。具体来说,文章提出的Logarithm Posit Processing Element(LPE)利用对数域来简化DNN(深度神经网络)训练中的一些复杂算术运算,从而提高计算效率并减少功耗。
具体应用:
-
卷积层中的乘法运算:通常,卷积层需要进行大量的乘法运算,在LPE中,这些乘法被转换为对数域的加法运算。通过这种转换,乘法运算变成了加法,从而显著减少了计算所需的能量。
-
批归一化(BN)层中的运算:批归一化层涉及除法、平方和平方根等运算,这些复杂的运算也可以通过对数域中的简单加法、减法和移位操作来实现,进一步降低了计算的复杂性和能耗。
-
对数域的工作原理:对数域的优势在于,它能够将乘法运算转化为加法,除法转化为减法,而平方和平方根操作则通过移位运算来完成。这使得在硬件实现中,处理这些操作所需的电路变得更简单、快速且能效更高。
总结:
在本文中,Logarithm主要指的是将数据转换到对数域,通过对数变换来简化复杂的乘法、除法和其他运算。这种方法能够大幅度降低计算能量和提高计算吞吐量,因此非常适合在资源受限的边缘设备上进行DNN训练。
在论文中,双阶段累加单元(TSAU)和Posit格式的关系是非常密切的。TSAU设计中,所有的数据处理—无论是小数据还是大数据—都使用Posit格式进行计算,具体细节如下:
1. TSAU的工作原理和Posit格式的使用:
TSAU的主要作用是在DNN训练过程中进行高效的累加操作。TSAU具有两个不同的累加阶段:
- 固定点累加器(20位精度):用于处理较小的数据。当输入数据较小时,TSAU使用20位固定点累加器进行运算。
- 浮点累加器:用于处理较大的数据。当输入数据的范围超过固定点累加器的处理能力时,TSAU切换到浮点累加器。浮点累加器处理的是更大的数值,但仍使用Posit格式进行存储和计算。
2. Posit格式的具体作用:
-
数据存储和表示: 在TSAU中,所有的操作数都采用Posit格式存储。这种格式能够在较低的比特宽度(8比特)下提供良好的精度和广泛的数值范围,从而减少内存使用和访问。
"LPE stores the operands in the posit format, satisfying both precision and data range with lower bit-width."
(LPE以Posit格式存储操作数,满足精度和数据范围,并且使用较低的比特宽度。) -
转换为对数域计算: Posit格式的数据首先通过解码器转化为对数域表示。对数域的计算使得一些复杂的算术运算(如乘法、除法、平方根等)可以通过简单的加法、减法和移位操作来实现,从而大幅度降低计算复杂度和功耗。
"The posit decoder first decodes the operands. It transforms them into Log representation."
(Posit解码器首先解码操作数,将其转换为对数表示。) -
浮点累加器的Posit格式使用: 即使在处理较大的数据时,浮点累加器仍然采用Posit格式进行计算。Posit格式的优点是其灵活的指数位宽,能够根据数据的精度需求动态调整,从而提高计算效率并降低功耗。
"The proposed LPE achieves 1.81× power and 1.35× area reduction compared with IEEE 754 float-point 16 (FP16) fused MAC while maintaining the same dynamic range."
(所提出的LPE相比IEEE 754 FP16融合MAC,功耗减少了1.81倍,面积减少了1.35倍,同时保持相同的动态范围。)
3. Posit格式带来的优势:
-
内存和能效优化: Posit格式的使用不仅提高了精度和范围,还显著减少了内存访问量和存储需求。例如,在DNN训练过程中,使用Posit格式可以比使用FP16精度减少58.2%的内存访问量。
"Posit-based training can reduce 58.2% memory access than using FP16 precision."
(使用Posit格式训练可以比FP16精度减少58.2%的内存访问。) -
功耗减少: 由于Posit格式的高效性,TSAU能够在不牺牲精度的情况下减少功耗。通过降低内存带宽需求和简化算术运算,Posit格式的使用提升了LPE的整体能效,达到3.87 TFLOPS/W,比传统FP16设计提高了能效。
"The proposed LPE achieves 1.81× power and 1.35× area reduction compared with IEEE 754 float-point 16 (FP16) fused MAC."
(所提出的LPE相比IEEE 754 FP16融合MAC,功耗减少了1.81倍,面积减少了1.35倍,同时保持相同的动态范围。)
4. 总结:
在TSAU中,所有数据的处理都基于Posit格式。这意味着不论是较小的数值还是较大的数值,TSAU中的所有加法和计算都利用Posit格式来优化计算性能。通过使用Posit格式,TSAU能够:
- 提供灵活的精度和数据范围。
- 显著减少内存访问和功耗。
- 提高计算效率,尤其是在边缘设备等资源受限的环境中。
这些优点使得Posit格式在DNN训练中,尤其是在边缘设备上的应用,具有显著的优势。
原文出处:
- 数据存储: "LPE stores the operands in the posit format, satisfying both precision and data range with lower bit-width."
- 对数域计算: "The posit decoder first decodes the operands. It transforms them into Log representation."
- 与FP16的比较: "The proposed LPE achieves 1.81× power and 1.35× area reduction compared with IEEE 754 float-point 16 (FP16) fused MAC while maintaining the same dynamic range."
- 内存和能效优化: "Posit-based training can reduce 58.2% memory access than using FP16 precision."