目标检测
卷积
输入形状是 nh×nw ,卷积核窗口形状是 kh×kw ,那么输出形状将会是
(nh−kh+1)×(nw−kw+1).
padding填充p,则输出长度+p
stride:当高上步幅为 sh ,宽上步幅为 sw 时,输出形状为⌊(nh−kh+ph+sh)/sh⌋×⌊(nw−kw+pw+sw)/sw⌋.
图像增广
微调
- 在源数据集(如ImageNet数据集)上预训练一个神经网络模型
- 创建目标模型复制了源模型上除了输出层外的所有模型设计及其参数
- 训练目标模型
当目标数据集远小于源数据集时,微调有助于提升模型的泛化能力。
两阶段
R-CNN
- 生成候选区域
selective search:
分割成矩形框→合并→不同大小的候选区域缩放到相同大小 得到定长向量 - CNN提取特征
预训练不带框
微调(fine-tuning)带框标注(可选) - 对区域分类
分类:线性SVM、softmax
边框较准:线性回归。输入特征(?
特点:在特征提取时间最长,扩展类别时间没有上升
SPP-net
空间金字塔池化
不需要每个候选区域单独通过网络
Fast R-CNN
单尺度Rol Pooling
多任务学习
全连接层SVD加速
- 生成候选区域:selective search、Edge Box(快)
- Fast RCNN用CNN生成候选窗口-Region Proposal Network(RPN):
两网络共享卷积层(Alex、VGG、ResNet)
anchor box :不同长宽比大小窗口
模型训练:交替、端到端(两个监督)
R-FCN
更快
Fast RCNN+ResNet
ResNet5次下采样
全卷积
位置敏感Rol Pooling
特征金字塔
mask R-CNN
单阶段
精度通常落后于两阶段,需要样本
YOLO
- 划分为7*7
- 整张图特征输入,背景误检变少
- 小物体、密集排布难检测,框不准
SSD
单发多框检测,基础网络块和若干个多尺度特征块串联
·
5个模块,第一个为基础网络快,2-5为多尺度特征块(不同大小目标)
- 类似anchorbox 有具体类别→default box
- 不同尺度的预测
- 难例挖掘:反例不超过3倍
- 增广:随机crop(重要
- 精度速度好
- 小目标问题
DSSD
解决小目标:深层和浅层特征融合–反卷积
- 跨层连接
- 特征融合相乘比相加更好
RetinaNet
样本不平衡导致精度差
- focal loss:使用所有样布,给予不同权重。容易的权重小,难例loss权重大
- 和单阶段一样快,超过两阶段的检测精度
FCN
- 转置卷积层/分数步长卷积(fractionally-strided convolution):把特征图乘权重矩阵变成和输入图一样大(或者直接上采样 ?
如果步幅为 s 、填充为 s/2 (假设 s/2 为整数)、卷积核的高和宽为 2s ,转置卷积核将输入的高和宽分别放大 s 倍
评价方式
检测框匹配
检测框和标注框的差异
交并比loU
相交的区域和并区域>0.5
小的0.25
匹配策略
- 贪心算法(常用
- 匈牙利算法
评价指标
AP
mAP
数据集
Pascal VOC
ImageNet——val2子集
MS COCO :难度最大 物体数量多
学习视频:网易云课堂《深度学习基础课程》https://www.bilibili.com/video/BV1JW411n7cP?from=search&seid=1124459201060956646