基于视觉和文本相似性的零样本迁移学习
1 零样本迁移学习概述
零样本迁移学习(Zero-Shot Transfer Learning,ZSTL)能够以极低的成本获得具有零样本学习效率和更广泛适用范围的多类别分类器。在图像检索领域,ZSTL可改善小样本、低频词、未标注词和新词汇类别的图像检索效果。
摄影师在构图时倾向于突出主体,这使得将视觉特征转换为语义特征成为可能。基于此,我们利用常见的构图方法构建零样本迁移学习模块,以连接视觉空间和文本空间。
1.1 问题陈述
目前互联网上的图像搜索方法主要基于视觉内容的相似性,但仅依据语义空间中的内容相似性对图像进行排序较为困难。当图像标签稀少甚至没有准确标签时,搜索这些图像会变得异常艰难。
我们的研究重点是将视觉特征转换为文本特征,这不仅可以提高根据内容相似性对图像进行排序的质量,还能通过少量目标标签将一个分类器转换为另一个零样本分类器。
零样本迁移学习的目标是通过应用另一个已知的相似分类器来构建一个包含少量或无训练数据的分类器。为实现这一目标,我们将已知的图像分类器转换为文本特征提取器,并将其输出空间转换到接近目标标签的文本空间。
1.2 假设
基于对图像的观察,我们假设源标签和目标标签在自然语言中的结构相似,这意味着它们的语义特征空间可能通过非线性变换与文本特征空间具有相似的分布。
形式上,设 $x$ 表示图像,$y$ 表示标签,$p(y|x)$ 表示分类器。给定数据集 $D_{train} = {(x_i, y_i)} {i = 1}^{n {train}}$ 上的已知分类器 $p_{t