本文来源公众号“集智书童”,仅用于学术分享,侵权删,干货满满。
原文链接:电子科大提出Group-CLIP | CLIP跨界引爆群体识别,不确定性建模登顶SOTA,实现安防新突破!
导读
群体再识别(Group ReID)旨在匹配跨非重叠摄像头的行人群体。与单人ReID不同,Group ReID更关注群体结构的变化,强调成员数量及其空间排列。然而,大多数方法依赖于基于确定性的模型,这些模型只考虑群体图像中的特定群体结构,往往无法匹配未见过的群体配置。
为此,作者提出了一种新颖的Group-CLIP不确定性建模(GCUM)方法,该方法将群体文本描述调整为不确定地适应成员和布局变化。具体来说,作者设计了一个成员变体模拟(MVS)模块,该模块使用伯努利分布模拟成员排除,以及一个群体布局适应(GLA)模块,该模块使用具有身份特定 Token 的不确定群体文本描述。此外,作者设计了一个群体关系构建编码器(GRCE),该编码器使用群体特征来细化个体特征,并采用跨模态对比损失从群体文本描述中获得可泛化的知识。
值得注意的是,作者是第一个将CLIP应用于Group ReID的研究者,并且大量的实验表明,GCUM在性能上显著优于最先进的Group ReID方法。
1. 引言
群组再识别[1]-[3]旨在根据特定 Query 从库图像中识别和检索具有相同身份的群组。目前关于群组再识别的研究较少,因为它不仅面临传统挑战[4]、[5](如遮挡、服装变化和光照变化),还面临额外问题,如群组成员(即群组成员数量可能在不同摄像头之间发生变化)和布局(即群组成员的空间位置可能在不同摄像头之间有所不同)的变化。现有的群组再识别方法主要使用非增强策略从数据集中对有限群组结构进行建模,这导致在面对具有现实变化的不确定群组布局时性能较差。
近期,CLIP-ReID 通过为每个身份生成通用的文本描述,引入了视觉语言预训练(VLP)在行人重识别(ReID)中的应用。这种方法利用多模态描述来增强模型区分行人能力。然而,CLIP-ReID在群体识别方面存在困难,因为它无法捕捉群体成员的结构和潜在关联。因此,使用CLIP准确建模复杂的群体结构和群体内部的隐性关系是一个重大挑战。为了解决这个问题,作者将在群体文本描述中引入不确定的隐性表达,例如“一群身穿红衬衫、蓝裤子、黑鞋的人,可能还穿着蓝衬衫、黑裤子、棕色鞋。”这些描述提供了识别个体外观(例如服装和配饰)的线索,而无需调整布局。此外,它们可以通过包含“可能存在”等短语来适应群体大小的变化。如图1所示,这些考虑成员和布局变异性不确定的文本描述,能够识别更广泛的群体结构。
为解决群体ReID的挑战,作者提出了一种新的群体CLIP不确定性建模(GCUM)方法,该方法利用不确定的群体文本描述来处理群体成员和布局的变化。GCUM采用两阶段训练过程来增强对未见过的群体结构的识别。在第一阶段,作者引入了一个群体布局自适应(GLA)模块,使用身份特定的 Token 生成不确定的群体文本描述。该模块包含“可能存在”等术语,以考虑群体组成的变异性。此外,作者还实现了一个成员变体模拟(MVS)模块,该模块使用伯努利分布随机排除某些群体成员,模拟多样化的群体场景。在第二阶段,作者开发了一个群体关系构建编码器(GRCE),以精炼和聚合个体特征。该编码器通过利用跨模态对比损失来过滤掉无关成员,并通过利用文本特征的知识迁移来增强群体识别,并适应群体成员和布局的变化。
本文的主要贡献如下:
-
1. 据作者所知,作者是第一个将CLIP应用于群组重识别,并提出了一种新颖的GCUM方法,以有效适应多样化的群组结构。
-
2. 作者设计了一个群组布局构建模块和一个成员变化模拟模块,分别用于生成模糊的群组文本描述,并在描述中添加“可能存在”的术语。
-
3. 提出了群组关系构建编码器,以充分利用从群组文本描述中关于成员和布局变化的通用知识。
2. 方法
如图2所示,作者提出的GCUM方法包括MVS、GLA和GRCE模块。详细描述将在以下子节中提供。
A. 成员变体模拟模块
B. 组布局自适应模块
C. 组合CLIP
3. 实验
A. 数据集与实验设置
数据集。作者在三个公开可用的数据集上评估GCUM方法:iLIDS-MCTS(IM)、RoadGroup(RG)和CsG。作者使用累积匹配特征(CMC)分数和平均平均精度(mAP)作为作者的评估指标。
B. 与其他群组重识别方法比较
GCUM在CSG、RoadGroup和iLIDS-MCTS数据集上分别实现了94.4%、90.1%和67.8%的Rank-1准确率。
与手工定制方法的比较。传统的手动方法依赖于劳动密集型的手动 Token ,通常导致准确性较低。相比之下,GCUM在大多数比较方法中表现更优。在最大的CSG数据集上,GCUM在Rank1准确率上比PREF提高了75.2%。在RoadGroup数据集上,与 BBC+CM[6]相比,它将Rank-1准确率提高了31.5%。同样,在iLIDS-MCTS数据集上,GCUM在Rank-1准确率上比PREF [18]提高了29.9%。
与基于深度学习的方法比较。GCUM在单个数据集上训练即达到最先进的性能。与在单个数据集上训练的UMSOT相比,GCUM在CSG、RoadGroup和iLIDS-MCTS数据集上分别提高了0.8%、1.2%和3.1%的Rank-1准确率。即使与在多个数据集上训练的DotSCN相比,GCUM在不使用额外数据集的情况下也超越了其准确率,凸显了GCUM的优势。
C. 消融研究
作者通过添加MVS、GLA和双分支组件来增强基础模型。GLA将个体文本连接成群体文本,对布局变化具有强大的泛化能力。MVS模拟成员数量变化,提供更广泛的群体视觉特征变化。双分支组件细化个体特征,以获得更全面的群体特征。这些组件有效地解决了成员和布局的变异问题。整合所有三个模块显著提高了性能,在CSG、RG和IM数据集上分别实现了94.4%、90.1%和67.8%的Rank-1准确率。
D. 可视化
图3展示了几个 Query 样本的检索结果。作者观察到,所提出的GCUM能够在成员数量和布局发生显著变化的情况下,准确检索到同一组图像。这一成功归因于MVS,它模拟了成员的变化,帮助GLA生成对组变化具有强适应性的文本描述。此外,GRCE捕获了更细粒度的组视觉特征,并将文本知识转移到视觉特征上。尽管受到不同环境和分辨率变化的影响,GCUM始终能够检索到正确的组图像。
4. 结论
在本文中,作者首次将CLIP引入到组重识别领域,并提出了一种新颖的组-CLIP不确定性建模(GCUM)方法,该方法通过利用不确定的组文本描述有效克服了CLIP-ReID的局限性。其次,作者提出了组布局自适应(GLA)模块和成员变体模拟(MVS)模块,这些模块增强了模型对组结构变化的适应性。此外,作者还提出了组关系构建编码器(GRCE),以精炼和聚合多模态特征,确保在不同场景下具有稳健的性能。在公共数据集上的实验结果表明,GCUM优于现有方法。
参考
[1]. Group-CLIP Uncertainty Modeling for Group Re-Identification
THE END !
文章结束,感谢阅读。您的点赞,收藏,评论是我继续更新的动力。大家有推荐的公众号可以评论区留言,共同学习,一起进步。