摘要
本文提出了一个双码流互信息蒸馏网络(MIND-Net
),该网络提取了在真实和合成LR人脸上共存的以通用人脸特征为特征的非身份特定的互信息(MI
),将其蒸馏以为LRFR提供分辨率不变的嵌入空间。
采用正则化MI index以量化MI的蒸馏程度。
一、介绍
已有的用HR训练得到的人脸识别模型不适用于实际的LR图像,原因在于实际的LR图像具有intra-class variations
(运动模糊,光照,姿势,遮挡等)。一种简单的方法是根据实际的LR图像对预训练的模型进行fine-tune,但由于LR标记人脸的缺失,这样操作的结果往往不是十分理想。
LRFR方法大体可分为两类:
- 超分方法(
SR
) - 分辨率不变方法(
RI
)
SR方法将LR重建到HR表示空间中,并在该域中训练人脸识别模型;RI方法则从所有LR和HR图像中训练多分辨率特征空间 (?)
SR方法的弊端:可能会损失对于人脸识别十分重要的身份特征,因此也有团队提出了一个保留identity的SR方法。
主流的基于RI的模型采用teacher-student
(TS)蒸馏范式,其他基于RI的模型例如为引入teacher-curriculum
(T-C)的教师和学生设置相同架构(?)。除此之外,non-TS模型在假设LR与HR图像不成对的情况下训练了一个普适性的CNN网络。
LRFR的目标也通常分为两类:1. LR-HR
2. HR-HR
, 本文侧重点在于LR-LR任务。
文章的主要贡献有:
- 提出了一个互信息蒸馏网络(
MIND-Net
)为真实LRFR提供分辨率不变的嵌入空间 - MIND-Net由两个 CNN构成,通过学习及共享一个参数集
φ
\varphi
φ,以从真实(target)和合成(cross-target?)LR人脸图像中蒸馏出以通用人脸特征表征的非身份特定的互信息(
MI
) - 区别于仅研究下采样生成的合成LR图像,本文研究的是真实LR人脸数据集,即LR-LR任务。
MIND-Net是文章提出时已知的第一个研究跨不同身份及数据集的任意两幅图像间的MI
二、解决方法
2.1 互信息蒸馏网络
2.1.1 MIND-Net架构
MIND-Net是一个由目标流f
和跨目标(cross-target)流f'
组成的双码流CNN网络,每个目标流f都有一个softmax分类器g
、一个跨目标分类器g'
- f和f’是两个学习和共享同一组参数的CNN,它们要么经过明确的预训练么就是随机初始化
- 训练阶段包括从相似语义域中抽取的(具有它们各自独立的)身份词典(?)的目标和跨目标数据集,其中相似的语义域就是本文中的人脸
- f通过小规模(small-scale)目标训练集学习baseline以解决目标问题
- f’作为交叉目标集中的应用于合成LR图像的补充流,将在MIND-Net通过端到端方式训练时进行MI蒸馏

2.1.2 训练阶段
损失函数:
-
对于目标任务及跨目标任务分别采用large margin Cosine loss作为其的损失函数
这里 v i = f ( x i ) v_i=f(x_i) vi=f(xi)是MIND-Net
提取的 x i x_i xi的d维特征向量,W
是sodtmax分类器g的目标权重矩阵,且 X = { ( x i , y i ) } i = 1 N X=\{(x_i,y_i)\}_{i=1}^N X={(xi,yi)}i=1N是目标流的训练集,每个 x i x_i xi都与一个其的ground truth的标签 y i = { 1 , 2 , . . . , C } y_i=\{1,2,...,C\} yi={1,2,...,C}相关联。
注:这里的损失函数还可以选择使用SphereFace loss或ArcFace loss损失代替。 -
除了各自的损失函数外,多任务学习往往还有一项辅助损失(auxiliary loss),这篇文章采用的是Triplet loss作为其辅助损失。
这里 ( v i ^ a , v i ^ p , v i ^ n ) (\hat{v_i}^a,\hat{v_i}^p,\hat{v_i}^n) (vi^a,vi^p,vi^n) 就是triplet loss的三元组,因此最小化 L a u x L_{aux} Laux也就是在最小化类内距离以及最大化类间距离(?图上的式子) -
综合三个loss:
L t o t a l = L + L ′ + α a u x L a u x L_{total}=L+L'+\alpha_{aux}L_{aux} Ltotal=L+L′+αauxLaux
2.1.3 模型部署阶段(inference stage)
完成训练后,只有f被用于位置图像的特征提取;在深度嵌入层提取gallery image及probe image的d维特征向量
2.2 互信息估计
由于网络参数在f与f’间共享,最小化L及L’有助于在训练阶段隐式的学习非身份特征的在目标(真实LR)与跨目标(合成LR)域间通用的人脸特征。
这样使得
Π
(
x
)
\Pi(x)
Π(x)和
Π
(
x
′
)
\Pi(x')
Π(x′)通过学习具有统计相关性,即如果x’与x都在一个人脸域中,那么很可能由于x和x’中更多相同的属性特征从而确定
Π
(
x
)
\Pi(x)
Π(x)和
Π
(
x
′
)
\Pi(x')
Π(x′)间更强的相关性。
三、实验结果及结论
3.1 实验设置
目标数据集(target dataset): 两个真实LR人脸库TinyFace和监控人脸(SCFace),使用MTCNN对所有SCFace图像进行了人脸检测及对齐。
跨目标数据集(cross-target dataset): LFW数据集的子集(包括来自1680名受试者的9164张HR图像),通过bicubic将这些图像降采样到32 x 32以生成合成LR图像。
MIND-Net构建: 利用了三个不同复杂度的预训练CNN模型:VGGNet、Inception-ResNet、 ResNet-50。根据双码流MIND-Net结构,将这些CNN组合成MIND-VGGNet、MIND-In-ResNet和MIND-ResNet-50进行探索。MIND-In-ResNet和MIND-ResNet-50的输入分辨率为160x160像素,而MIND-VGGNet在实验中接受的图像为112x96像素。因此,在训练和测试阶段之前需要将所有LR图像上采样到指定的分辨率。
实验设置:
3.2 互信息分析
本文研究了没有辅助损失的情况下学习MIND-VGGNet的正则化MI分布,可以从表II中观察到:
- non-face Cifar100和TinyImageNet的归一化MI上限为0.3749和0.4577,而其他人脸数据集报告的MI指数至少为0.6894
- 过度的MI蒸馏会导致非身份特异性细节主导身份特异性特征,因此具有最佳MI指数0.9515的SCFace在测试集中表现不佳。此外,SCFace的训练集是一个小规模的存储库,仅配备800张图像,因此会导致MI被覆盖(?)。
- LFW子集为MI蒸馏提供了足够大的外部数据集。该组合不仅达到了MI的平衡,而且获得了最佳的测试IR 57.14%。因此,在我们即将进行的实验中,我们将LFW子集用于合成LR图像集和HR图像集。