低功耗计算机视觉中的目标检测与神经网络量化
立即解锁
发布时间: 2025-08-30 01:54:16 阅读量: 8 订阅数: 12 AIGC 

# 低功耗计算机视觉中的目标检测与神经网络量化
## 1. 低功耗目标检测模型优化
在计算机视觉领域,低功耗目标检测模型的优化至关重要。通过对目标检测模型的优化,可以提高检测精度,同时降低模型的执行延迟。
### 1.1 目标检测精度优化
对不同大小目标的检测精度进行优化,采用了缩放区域优化方法,相对提高了超过 7.8%的目标检测平均精度均值(mAP),将整体 mAP 从 16.5%提升至 17.8%。
### 1.2 非极大值抑制阈值调整
非极大值抑制阈值可以用来进一步平衡速度和精度。对于 236×236 的检测模型,它有几毫秒的空间来达到 100ms 的延迟预算,这是微调非极大值抑制阈值的理想范围。通过实验,对优化后的 236×236 MobileNetV1 SSD 模型应用不同的非极大值抑制阈值,结果如下表所示:
| 非极大值抑制阈值 | 精度 (mAP %) |
| --- | --- |
| 0.30 | 17.85 |
| 0.25 | 18.11 |
| 0.20 | 18.29 |
| 0.15 | 18.40 |
| 0.10 | 18.43 |
最终选择了阈值 0.15,因为它在精度和延迟之间取得了最佳平衡。
### 1.3 综合优化效果
通过结合上述所有方法,可以得到一个延迟在 100ms 以内且精度最高的检测模型。将优化后的 236×236 检测模型与原始的 300×300 检测模型进行对比,结果如下表所示:
| 模型 | 输入分辨率 | 精度 (mAP %) | 延迟 (ms) |
| --- | --- | --- | --- |
| 原始检测模型 | 300×300 | 18.0 | 145 |
| 优化后的检测模型 | 236×236 | 18.4 | 93 |
优化后的模型不仅在精度上有所提高,而且在执行速度上也有显著提升。该检测模型在 2018 年的 LPIRC COCO 保留测试数据集的交互式检测挑战中获得了第一名,进一步优化的模型在 2019 年再次获得了一等奖。同时,将类似的方法应用于 ImageNet 分类(除了数据集过滤和非极大值抑制优化),还训练出了一个非常好的 8 位量化友好的分类模型,该模型在 2018 年的 LPIRC-II ImageNet 保留测试数据集的交互式分类挑战中获得了第二名。
## 2. 神经网络量化基础
随着深度学习在计算机视觉应用中的广泛采用,神经网络虽然在许多任务上优于传统计算机视觉算法,但往往伴随着较高的计算成本。降低神经网络推理的功耗和延迟是将最先进的网络集成到对功耗和计算有严格要求的边缘设备中的关键。神经网络量化是实现这些节省的最有效方法之一,但它引入的额外噪声可能会导致精度下降。下面将介绍神经网络量化的基础知识。
### 2.1 硬件背景
在深入技术细节之前,先了解量化的硬件背景以及它如何实现高效的设备端推理。神经网络(NN)加速器中矩阵 - 向量乘法(y = Wx + b)的计算过程如下:
```mermaid
graph LR
classDef startend fill:#F5EBFF,stroke:#BE8FED,stroke-width:2px;
classDef process fill:#E5F6FF,stroke:#73A6FF,stroke-width:2px;
A([加载偏置值 bn 到累加器 An]):::startend --> B([加载权重值 Wn,m 和输入值 xm 到数组]):::process
B --> C([在处理元素 Cn,m 中计算 Wn,m * xm]):::process
C --> D([将 Cn,m 的结果累加到累加器 An 中]):::process
D --> E([完成所有循环后,将累加器 An 的值移回内存]):::process
```
神经网络通常使用 FP32 权重和激活进行训练。如果也以 FP32 进行推理,处理元素和累加器必须支持浮点逻辑,并且需要将数据从内存传输到计算单元。MAC 操作和数据传输消耗了神经网络推理过程中的大部分能量。因此,使用低比特定点或量化表示这些量可以带来显著的好处。低比特定点表示(如 INT8)不仅减少了数据传输量,还降低了 MAC 操作的大小和能耗。
为了从浮点运算转换到高效的定点替代方案,需要一种将浮点向量转换为整数表示的方案。一个实值向量 x 可以近似表示为一个实数乘以一个整数值向量:
$\hat{x} = s_x \cdot x_{int} \approx x$
其中 $s_x$
0
0
复制全文
相关推荐










