MTCNN人脸识别趟坑实录2019

本文详细记录了MTCNN人脸识别的原理与应用过程中遇到的问题,包括P-Net、R-Net和O-Net的功能,数据集准备中的负样本处理,以及网络输入输出结构的注意事项。通过实例展示,解析了MTCNN在不同阶段的输出结果,强调了数据集质量和多样性对识别效果的影响。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

MTCNN论文相关的基本原理

近期在研究MTCNN的人脸识别。感觉坑还是有一些的,值得备注下供大家参考。
论文里面的图就不贴了,阅读了很多博客,大部分都是从论文中大致翻译过来的内容,但是细节提得就不多了。
网络分为三个:P-Net、R-Net和O-Net。虽然每个网络的构造大致相同,功能却有很大区别,训练方式也大有不同。本文会详细描述。
单纯从网络构造和训练方式入手,思维略带跳跃性。从【识别过程】开始理解,会对整体网络的工作方式很有帮助。笔者一开始是正向理解,绕了很多弯路。

从识别过程理解

从输入一张图片开始
在这里插入图片描述

P-Net的功能:

如果我们需要从大小无关的图片中提取出来脸部区域的大致位置,可以这样做。用成等比大小的【小格子组】从上到下,从左到右,扫遍整张图,如果有的格子的人脸评分很高,那么我们就找到了目标区域。P-Net即是实现这个功能。P-Net的训练过程将整张图缩成固定的12像素,传入网络,输出是人脸的得分,及人脸BoundingBox(以下简称BB)的回归值。通过P-Net,我们可以先将测试图按照论文中金字塔的缩减方式进行素材累加(相当于将【扫描基准格】按照金字塔比例进行放大),然后将所有金字塔图片成批的传入网络,输出的结果再除以对应的缩放比例,依据BB的回归值进行精调,即可获得原图中大致的人脸范围。关于BB的生成和回归值精调,牵扯到的一些算法,比如NMS(非极大值抑制)就不累述了,目的是去除很多因为金字塔生成的重叠BB。将P-Net输出的所有BB从原图中扣

评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值