论文阅读:Video2Shop : Exact Matching Clothes in Videos to online Shopping Images

该论文介绍了Video2Shop系统,它利用AsymNet从视频中匹配与图片中的衣物。系统结合了IFN和VFN特征提取网络,以及SNN和FN相似度网络来计算衣物特征的相似度。IFN基于VGG16并使用SPP层处理不同大小的输入,而VFN结合LSTM处理视频序列。SNN和FN用于一对多的相似度计算,通过树形结构的FN网络融合不同层的得分。训练过程包括分步学习SNN和FN的权重,采用对数损失函数和EM算法优化。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

1.概述

这篇论文实现了一个AsymNet,用来从视频中匹配到和图片中相似的衣服。
大致思想是用特定的网络抽取图片中衣服特征,用物体检测和跟踪算法抽取视频中的衣服特征,然后对两种特征进行相似度计算,得到相似度分值。

2.网络结构图

这里写图片描述

3.特征提取网络

3.1IFN

这里写图片描述
IFN网络结构基于VGG16
首先,商品的图片经过Faster-RCNN网络,检测到衣服区域。然后,再把衣服区域经过IFN网络,得到最后的特征 m m 。因为输入的衣服区域是任意大小的,卷基层和池化层对输入大小没有要求,但是全连接层需要统一大小,所以在最后的池化和全连接层之间加入了一个SPP层,用来统一数据尺寸。

3.2VFN

这里写图片描述
在视频处理过程中,通过使用Faster-RCNN检测衣服区域,使用KCF进行跟踪,得到连续的图像序列特征。
然后把序列特征通过IFN网络,把二级特征经过两层堆叠LSTM网络中,得到隐藏层特征 h ,作为后续使用的特征。

4相似度网络

相似度网路的实现类似于混合专家系统。
网络的输入是通过IFN得到的一个特征和VFN得到的多个隐层特征,是一对多的问题。作者通过实现树形结构,拆解子问题,每个结点训练不同的权值,最终加权得到最后的概率值。

4.1SNN

SNN计算 hi h i m m ∗ 的相似性。SNN由两个全连接层组成。第一层(fc1)的输出是256维,第二层(fc2)的输出是1维。相似度得分的计算公式为:这里写图片描述

4.2FN

FN用来融合不同的FN层的score值,得到最终的score。低层的FN连接到高层的FN,形成树形结构。
论文中图示是一个两层的FN网络。
低层FN连接到SNN,高层FN连接到根节点。
低层 FNij F N i j 表示低层第 i i

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值