MTCNN人脸识别趟坑实录2019

最新推荐文章于 2021-03-27 10:24:00 发布

cm02070601

最新推荐文章于 2021-03-27 10:24:00 发布

阅读量2k

点赞数 1

CC 4.0 BY-SA版权

分类专栏：人脸识别文章标签：人脸识别人工智能 MTCNN 采坑 AI

本文链接：https://blog.csdn.net/cm02070601/article/details/85685318

本文详细记录了MTCNN人脸识别的原理与应用过程中遇到的问题，包括P-Net、R-Net和O-Net的功能，数据集准备中的负样本处理，以及网络输入输出结构的注意事项。通过实例展示，解析了MTCNN在不同阶段的输出结果，强调了数据集质量和多样性对识别效果的影响。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

MTCNN论文相关的基本原理

近期在研究MTCNN的人脸识别。感觉坑还是有一些的，值得备注下供大家参考。
论文里面的图就不贴了，阅读了很多博客，大部分都是从论文中大致翻译过来的内容，但是细节提得就不多了。
网络分为三个：P-Net、R-Net和O-Net。虽然每个网络的构造大致相同，功能却有很大区别，训练方式也大有不同。本文会详细描述。
单纯从网络构造和训练方式入手，思维略带跳跃性。从【识别过程】开始理解，会对整体网络的工作方式很有帮助。笔者一开始是正向理解，绕了很多弯路。

从识别过程理解

从输入一张图片开始
在这里插入图片描述

P-Net的功能：

如果我们需要从大小无关的图片中提取出来脸部区域的大致位置，可以这样做。用成等比大小的【小格子组】从上到下，从左到右，扫遍整张图，如果有的格子的人脸评分很高，那么我们就找到了目标区域。P-Net即是实现这个功能。P-Net的训练过程将整张图缩成固定的12像素，传入网络，输出是人脸的得分，及人脸BoundingBox（以下简称BB）的回归值。通过P-Net，我们可以先将测试图按照论文中金字塔的缩减方式进行素材累加（相当于将【扫描基准格】按照金字塔比例进行放大），然后将所有金字塔图片成批的传入网络，输出的结果再除以对应的缩放比例，依据BB的回归值进行精调，即可获得原图中大致的人脸范围。关于BB的生成和回归值精调，牵扯到的一些算法，比如NMS（非极大值抑制）就不累述了，目的是去除很多因为金字塔生成的重叠BB。将P-Net输出的所有BB从原图中扣