论文阅读：Video2Shop : Exact Matching Clothes in Videos to online Shopping Images

最新推荐文章于 2023-04-05 09:20:46 发布

原创

最新推荐文章于 2023-04-05 09:20:46 发布 · 873 阅读

0 ·

CC 4.0 BY-SA版权

该论文介绍了Video2Shop系统，它利用AsymNet从视频中匹配与图片中的衣物。系统结合了IFN和VFN特征提取网络，以及SNN和FN相似度网络来计算衣物特征的相似度。IFN基于VGG16并使用SPP层处理不同大小的输入，而VFN结合LSTM处理视频序列。SNN和FN用于一对多的相似度计算，通过树形结构的FN网络融合不同层的得分。训练过程包括分步学习SNN和FN的权重，采用对数损失函数和EM算法优化。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

1.概述

这篇论文实现了一个AsymNet，用来从视频中匹配到和图片中相似的衣服。
大致思想是用特定的网络抽取图片中衣服特征，用物体检测和跟踪算法抽取视频中的衣服特征，然后对两种特征进行相似度计算，得到相似度分值。

2.网络结构图

这里写图片描述

3.特征提取网络

3.1IFN

这里写图片描述
IFN网络结构基于VGG16。
首先，商品的图片经过Faster-RCNN网络，检测到衣服区域。然后，再把衣服区域经过IFN网络，得到最后的特征 $m$ 。因为输入的衣服区域是任意大小的，卷基层和池化层对输入大小没有要求，但是全连接层需要统一大小，所以在最后的池化和全连接层之间加入了一个SPP层，用来统一数据尺寸。