1.概述
这篇论文实现了一个AsymNet,用来从视频中匹配到和图片中相似的衣服。
大致思想是用特定的网络抽取图片中衣服特征,用物体检测和跟踪算法抽取视频中的衣服特征,然后对两种特征进行相似度计算,得到相似度分值。
2.网络结构图
3.特征提取网络
3.1IFN
IFN网络结构基于VGG16。
首先,商品的图片经过Faster-RCNN网络,检测到衣服区域。然后,再把衣服区域经过IFN网络,得到最后的特征 m m 。因为输入的衣服区域是任意大小的,卷基层和池化层对输入大小没有要求,但是全连接层需要统一大小,所以在最后的池化和全连接层之间加入了一个SPP层,用来统一数据尺寸。
3.2VFN
在视频处理过程中,通过使用Faster-RCNN检测衣服区域,使用KCF进行跟踪,得到连续的图像序列特征。
然后把序列特征通过IFN网络,把二级特征经过两层堆叠LSTM网络中,得到隐藏层特征
,作为后续使用的特征。
4相似度网络
相似度网路的实现类似于混合专家系统。
网络的输入是通过IFN得到的一个特征和VFN得到的多个隐层特征,是一对多的问题。作者通过实现树形结构,拆解子问题,每个结点训练不同的权值,最终加权得到最后的概率值。
4.1SNN
SNN计算 hi h i 和 m∗ m ∗ 的相似性。SNN由两个全连接层组成。第一层(fc1)的输出是256维,第二层(fc2)的输出是1维。相似度得分的计算公式为:
4.2FN
FN用来融合不同的FN层的score值,得到最终的score。低层的FN连接到高层的FN,形成树形结构。
论文中图示是一个两层的FN网络。
低层FN连接到SNN,高层FN连接到根节点。
低层 FNij F N i j 表示低层第 i i