前言
接下来,我们就来看看视频行人重识别训练模型的其中一种temporal aggregation method:temporal pooling。
这是比较简单的一种方式,效果也不错,是将通过CNN网络提取到的每一帧T图像特征根据seq_len,使用average pooling融合成每一个clips的特征。
如A部分:
模型输入
- imgs
- imgs.size() = [b,s,c,h,w]
- 在训练级中 b为batch通常设置为32,seq_len设置为4,c为通道数为3,h图片高,w图片宽
模型初始化参数
model = models.init_model(name=args.arch, num_classes=dataset.num_train_pids, loss={
'xent', 'htri'})
- name 使用的模型名称
- dataset.num_train_pids 分类时的分类数
- loss xent=交叉熵损失 htri=Tripletloss
模型实现
class ResNet50TP(nn.Module):
def __init__(self, num_classes, loss={
'xent'}, **</