论文翻译——Multi-modal Self-Supervision from Generalized Data Transformations（多模态自监督）-CSDN博客

文章介绍了广义数据变换（GDT）框架，用于统一和扩展自监督学习方法，尤其是对比学习。GDT能够捕获多个不变性和独特性线索，适用于视频和音频数据。通过在不同变换上进行采样和对比，GDT允许系统地探索新的对比目标，从而提高学习表示的性能。在视听数据上进行实验，GDT预训练的模型在动作识别等下游任务上显著优于现有技术，甚至超过了监督预训练的性能。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

论文翻译——Multi-modal Self-Supervision from Generalized Data Transformations

广义数据变换的多模态自监督
论文：https://arxiv.org/pdf/2003.04298v2.pdf
代码：https://github.com/facebookresearch/GDT

摘要

自监督学习最近的成功在很大程度上可以归功于内容保持变换，它可以用来容易地导出不变量。虽然转换在对比损失训练中生成正样本对，但最近的工作侧重于开发新的客观公式，而对转换本身的关注相对较少。在本文中，我们引入了广义数据变换的框架，以（1）将最近的几个自监督学习目标简化为一个单一的公式，便于比较、分析和扩展；（2）允许在数据变换不变或不同之间进行选择，获得不同的监督信号，以及（3）推导出转换的组合必须遵守的条件，以便实现适当的学习目标。该框架允许将不变性和独特性同时注入表示中，并使我们能够系统地探索新的对比目标。我们将其应用于研究从未标记视频中学习视听表征的多模式自我监督，大大提高了现有技术，甚至超过了监督预训练。我们在HMDB-51、UCF-101、DCASE2014、ESC-50和VGG Sound等数据集上展示了各种下游视频和音频分类和检索任务的结果。特别是，我们在HMDB-51和UCF-101上分别获得了72.8%和95.2%的最新准确率。

一、介绍

图像表示的自监督预训练正在迅速成熟，现在与使用手动监督的预训练方法相比具有竞争力。先前的工作已经探索了不同的预训练方法，例如各种借口任务[25，33，74，81110]和聚类[8，14，34]。然而，最近的许多方法，包括PIRL[69]、MoCo[41]和SimCLR[98]，都使用了噪声对比学习。关键思想是将学习到的表示约束为对使数据的含义保持不变的麻烦变换不变（例如，裁剪图像），并且对可能改变其含义的变化不同（例如，用随机选择的另一个图像替换图像）。这被认为是最小化所谓的噪声对比损失[36，37]，从而实现稳健有效的学习。

设计好的对比公式的大部分艺术在于转换的选择。在计算机视觉中，大多数公式寻求照片几何数据变换的不变性，其形式为随机2D图像失真，如比例变化、裁剪或对比度变化。虽然这些只是近似的真实干扰因素，如视点变化、对象变形或类内变化，但关键的优点是它们可以简单地实现。为了区分，这些公式试图区分不同的图像样本，假设两个随机图像具有相同“含义”的概率非常低。

与图像相比，视频允许使用基于时间和多模态的转换的预训练方法[6，55112]。一个例子是跨模态监督[6，78]，其中学习匹配从同一视频中提取的视觉和音频分量。后者是抽象的一个很好的代理，因为它鼓励表示学习具有特征外观和声音的对象。其他人[20，55，77]提出研究音频和视频流之间的时间相关性，学习判断它们是否同步。值得注意的是，这些方法通常不是以噪声对比的方式来制定的。总的来说，我们可以描绘一幅复杂的画面，用不同的方法从不同的线索和学习方案组合中学习。

在本文中，我们介绍了广义数据变换（GDT）的方法，它澄清、统一和改进了这些不同的方法。GDT吸收一个对象的效果，如数据采样、模态选择、时间偏移和照片几何增强。鉴于此，可以将大多数现有的自监督学习方案简化为（1）选择如何在一批中对GDT进行采样，以及（2）对哪些GDT对进行正对比、负对比或忽略。这一概念在图1中的一个典型的视听学习实例中得到了举例说明。一组GDT是分层构建的，从数据集的视频采样开始，一直到分割模态和应用增强（A）。然后，将不同的变换对与正（吸引）或负（排斥）效应进行对比（B）。这学习了表示（C）中相应的不变量或显著性。

我们的减少的重要性在于，它扩展到了迄今为止仅以非对比方式给出的线索，并允许以前未探索的新组合，例如对时间偏移的独特性和跨模态的时间反转，从而产生最先进的特征表示。我们还导出了形式条件来判断哪些组合是有效的。此外，大多数对比公式都涉及不变量的选择，将区别性固定为不同样本的区分。GDT框架表明，两种设计选择都可以更改，从而获得更好的结果。

简言之，GDT的一个关键好处是，它们允许系统地探索和测试新的假设，在这些假设上，不变量和显著性对预训练数据表示最有利。由于这种增加的灵活性，我们可以提高现有方法的性能。为了证明这一点，我们将我们的框架应用于多模态（视频）数据，因为它提供了丰富的搜索组合空间。使用我们的框架，我们探索了这种组合的空间，并确定哪些组合最适合下游性能。有了这一点，我们能够在视听表示学习中开创新的技术水平，在各种视觉和音频下游任务上使用小型和大型视频预训练数据集。特别是，我们在标准化的UCF-101和HMDB-51动作识别基准上分别达到了95.2%和72.8%。

在这里插入图片描述

图1：我们的框架示意图。A：广义变换 $T=t_M◦ ... ◦t_1$ 的分层采样过程多模态训练研究案例的。B：通过广义数据变换（GDT），网络通过学习期望的不变量和跨模态和时间的变换的独特性（为了清晰起见，在这里重新排列）来学习有意义的嵌入。嵌入是通过相对于其他源视频的剪辑的噪声对比估计来学习的。C： $C (T, T^{'})$ 对比度矩阵的子集，显示了哪些对是排斥（0）和吸引（1）（详见正文）。插图视频取自[1]。

二、相关工作

早期的无监督表征学习。几十年来，从未标记的数据中学习表示一直是计算机视觉研究的一个活跃领域。早期的工作，如自动编码器[43]、深度相信网络[44]、移位不变解码器[86]、稀疏编码算法[59]和堆叠ISA[58]，通过重建输入来学习图像和视频表示。然而，最近，许多工作转而关注自我监督学习方法，通过开发借口任务来学习表征，以鼓励网络从图像和视频中可用的免费监督信号中学习语义。

从图像和视频中进行自我监督学习。已经提出了各种借口任务来从未标记的图像中学习表示。一些任务利用图像中的空间上下文[24，74]来训练细胞神经网络，而另一些任务则通过人工旋转[33]或聚类特征[8，14，15，34]来创建伪分类标签。着色[110，111]、修复[81]、解决拼图[75]以及下面详细介绍的对比方法已被提出用于自监督图像表示学习。一些使用图像空间维度的任务已经通过制作等效任务扩展到视频的时空维度。其中包括拼图游戏[53]，以及预测旋转[49]或未来帧[38]。其他任务通过预测混洗帧[70]、时间方向[105]、运动[104]、剪辑和序列顺序[60109]以及播放速度[11，19，26]，利用视频的时间维度来学习表示。这些借口任务可以被定义为GDT。

多模式学习。与图像不同，视频是语音、音频和光流等多种模态的丰富来源，它们的相关性可以用作监控信号。这个想法早在1993年就已经出现了[22]。然而，直到最近，多模态学习才被用来通过利用音频和视频流之间的自然对应[5，6，9，71，78]和同步[20，55，77]来成功地学习有效的表示。最近的一些论文利用语音作为弱监督信号来训练视频表示[62，68，72，96，97]。其他作品结合了光流和其他模态[64，83，98114]来学习表示。此外，多模态学习已被用于多种应用，如唇读[4，20，21]、视听源分离和定位[3，7，28，29，39，77，87，91，113，114]、语音识别[2，73，84]、高效推理[30，56]、以自我为中心的动作识别[51]和导航[16]。由于音频和视频流，视频中的转换空间比图像丰富得多。至关重要的是，视频具有高帧率，这允许在时间和空间上有很大的裁剪组合空间[5，6，38，55，92，100]。视频还包含有用的多模态信号，如视听同步[6，20，55，77]。

噪声对比度损失。噪声对比损失[36，37]衡量代表空间中样本对之间的相似性，是最近几项无监督特征学习工作的核心。已经证明，它在学习图像[18，41，42，45，61，69，76，98，99，106]和视频[38，62，68，71，93，96]表示方面具有良好的性能，并且避免了通过设计任务明确指定需要丢弃哪些信息的需要。我们利用噪声对比损失作为学习框架，鼓励网络学习数据转换所需的不变性和独特性。

GDT框架可以用于在单个噪声对比公式中组合和扩展这些线索中的许多，无论是否对比。

三、方法

数据表示是函数 $f:\mathcal{X}→ \R^D$ 将数据点x映射到向量 $f (x)$ 。表示很有用，因为它们有助于解决应用程序中感兴趣的数据分析任务，例如对图像进行分类。基于数据和任务的性质，我们通常先验地知道表示应该具有的一些不变量。我们可以通过对比度函数 $c(x_1,x_2)=δ_{f(x_1)=f(x_2)}$ 来捕捉这些，其中 $c(x_1,x_2)=1$ 意味着 $f$ 对于用 $x_2$ 替换 $x_1$ 是不变的，而 $c(x_1,x_2)=0$ 意味着 $f$ 对这种变化是独特的。对比度 $c$ 的任何部分知识都可以用作学习 $f$ 的线索。然而，我们不能以任意的方式选择 $c$ ；为了使 $c$ 一致地定义函数 $f$ ，表达式 $c(x_1,x_2)=1$ 必须是 $\mathcal{X}$ 上的等价关系，即自反式 $c (x, x) = 1$ ，对称式 $c(x_1,x_2)=c(x_2,x_1)$ 和传递式 $c(x_1,x_2)=c(x_2,x_3)=1⇒ c(x_1,x_3)＝1$ 。这在附录A.1中得到了证明。

接下来，我们通过考虑对比学习公式的两个例子来介绍广义数据转换。第一个例子类似于MoCo[41]和SimCLR[18]等“标准”方法，而第二个例子处理多模态数据。

标准对比公式。我们希望学习表示 $f$ 以匹配已知的对比度 $c$ 。为了做到这一点，我们需要样本 $x_1$ 和 $x_2$ 形成不变的 $c(x_1,x_2)=1$ 和独特的 $c(x_1,x_2)=0$ 对。通过对 $x_1$ 进行采样，然后将 $x_2=g(x_1)$ 设置为第一个样本的随机变换，可以生成正对，其中 $g∈\mathcal{G}$ 被称为数据扩充。负对是通过对 $x_1$ 和 $x_2$ 进行独立采样而获得的。

只通过转换来表达这些概念是很方便的。为此，设 $D=(x_1,…,x_N)∈ \mathcal{X}^N$ 是 $N$ 个未标记的训练数据样本的集合。广义数据变换（GDT） $T:\mathcal{X}^N→\mathcal{Z}$ 是作用于训练样本集 $D$ 的映射，以产生新的样本 $z ＝ T D$ 。注意，GDT应用于整个训练集，因此采样本身可以被视为一种变换。在最简单的情况下，GDT输出 $TD∈\mathcal{Z}=\mathcal{X}$ 是通过(i)提取第 $i$ 个数据样本和(ii)应用增广 $g:\mathcal{X}$ 来获得的→ 形式上， $T = (i, g)$ 的作用是 $TD=g(x_i)$ 。

在我们的“标准”公式中，学习寻求一个函数 $f$ ，该函数对样本的选择是独特的，但对其扩充是不变的，它由对比度 $c(T,T')=c((i，g),(i',g'))=δ_{i=i'}$ 表示。注意，与前一节不同的是，我们现在在变换 $T$ 上定义了 $c$ ，而不是在样本 $x$ 上。在附录A.1中，我们证明了这是可以接受的，前提是 $c (T, T^{'}) = 1$ 也是自反的、对称的和传递的。

接下来，我们考虑K个GDT的一批 $T={T_1,…,T_K}$ ，并优化其上所谓的噪声对比损失[18，36，76，98，106]：

在这里插入图片描述
其中标量 $ρ$ 是一个温度参数。权重 $w (T, T^{'})$ 被设置为 $δ_{T{=}\mathllap{/\,}T'}$ ，以忽略对比相同的变换，这将导致弱的学习信号。

我们可以将方程（1）视为分类问题的softmax交叉熵损失，其中类是变换的等价类 $\mathcal{T}/c$ 。最小化等式。（1）如果 $c (T, T^{'}) = 1$ ，则将向量 $f (T D)$ 和 $f (T^{'} D)$ 拉在一起，如果 $c (T, T^{'}) = 0$ ，则将它们推开。这种效果类似于保证金损失，但可以更好地处理硬负片[18，52，98]。

多模态对比公式。几篇论文建议使用模态之间的相关性来学习多模态数据的表示[6，9，55，78，105]。虽然这通常不是以噪声对比的方式进行的，但在这里我们表明，上面的公式可以立即扩展到这种情况。为此，设 $x_1$ 和 $x_2$ 是相同底层数据样本 $x$ 的两种不同模态。为了用GDT对其进行编码，考虑模态投影变换 $m∈\mathcal{M}$ 。例如，视频 $x = (v, a)$ 具有视觉分量 $v$ 和音频分量 $a$ ， $\mathcal{M}={m_a,m_v}$ 包含两个分量上的投影 $m_v(x)=v$ 和 $m_a(x)=a$ 。这样，我们可以修改上面给出的“标准”公式，使用GDTs $T = (i, m)$ 和作用 $TD=m(x_i)$ 。最小化等式（1）现在学习表示 $f$ ，该表示对于输入视频的选择是独特的，但是对于模态的选择是不变的。为此，由于f必须接受视觉或音频信号作为输入，我们考虑一对表示 $f=(f_v,f_a)$ ，每个模态一个。

3.1 结合多重不变性和独特性线索

我们在上面已经提出，GDT可以捕获标准的对比和其他自我监督的学习公式。在本节中，我们展示了该框架实际上如何适应转换的复杂组合，捕捉某些转换的不变性和其他转换的独特性，从而产生新的公式。为了实例化方程。（1），事实上，我们只需要：（1）对比度 $c (T, T^{'})$ 和（2）一种在批处理中采样变换的方法。

与使用独立样本的常见学习公式不同，在对比学习中，必须确保批次中包含可以进行有意义对比的转换，形成不变和独特对的混合。这意味着变换不能独立采样。相反，我们提出了以下分层采样方案。每个广义变换 $T=t_M◦ · · · ◦ t_1$ 被构造为 $M$ 个变换 $t_m$ 的序列。首先，我们对变换 $t_1$ 的 $K_1$ 个实例进行采样；然后，对于每个样本 $t_1$ ，我们对变换 $t_2$ 的 $K_2$ 个实例进行采样，依此类推，获得该批次的总共 $K＝\prod^M_{m＝1}K_m$ 的不同变换 $T$ 。给定两个广义变换 $T=t_M◦· · ·◦t_1$ 和 $T'=t'_M◦· · ·◦t'_1$ 以这种方式采样，我们还必须定义 $c (T, T^{'})$ 。对于单个转换，我们设置：
在这里插入图片描述
并且定义 $c(T,T')＝\prod^M_{m＝1}c(t_m,t'_m)$ 。在附录A.1中，我们证明了如果个体 $c(t_m,t'_m)$ 是自反的、对称的和传递的，那么 $c (T, T^{'})$ 也是。直观地说，这种采样方案是一种简单的方法，可以控制批次中的转换如何不同，从而通过对比可以学习哪些属性。

我们在附录A.2中表明，该框架可用于表达文献中提出的各种自我监督学习线索，并在接下来展示了视听数据的示例。

3.2 探索对比视听自我监督

为了将我们的框架应用于视听数据，我们首先指定如何使用上面介绍的分层方案对转换进行采样（另请参见图1）。我们特别考虑 $T = (i, τ, m, g)$ 类型的GDT，结合以下变换。第一个组件 $i$ 选择数据集中的视频。我们采样 $K_i \gg 2$ 个索引/视频，并假设显著性，使得 $c(i,i')=δ_{i=i'}$ 。第二个分量 $τ$ 对比了不同的时间偏移。我们随机均匀采样 $K_τ=2$ 个不同的延迟 $τ$ 值，提取从时间 $τ$ 开始的1s剪辑 $x_{iτ}$ 。对于这种对比，我们将测试显著性和不变性假设（见下文）。第三个分量 $m$ 对比模式，将视频xiτ投影到其视觉或音频分量 $m(x_{iτ})$ 。我们假设不变性 $c (m, m^{'}) = 1$ ，并且总是对两个这样的变换 $m_v$ 和 $m_a$ 进行采样以提取这两种模态，因此 $K_m=2$ 。第四个也是最后一个分量 $g$ 应用了空间和听觉增强 $TD=g(m(x_{iτ}))）$ ，也对数据进行了规范化。我们假设不变性 $c (g, g^{'}) = 1$ ，并且选取 $K_g=1$ 。变换 $g$ 包括一对增强 $g_v，g_a)$ ，其中 $g_v(v)$ 通过将输入视频v的随机空间裁剪调整到固定分辨率来提取固定大小的张量，并且 $g_a(a)$ 提取音频信号的频谱图表示，然后用频率和时间掩蔽SpecAugment[79]。这些选择导致批次 $T$ 中的 $K=K_iK_τK_mK_g=4K_i$ 变换 $\mathcal{T}$ 。

检验不变性和显著性假设。上面给出的转换结合了先前工作中部分探索的线索，对比和非对比。例如，[55]（不是噪声对比）学习检测时间偏移。通过我们的公式，我们可以简单地通过设置 $c (τ, τ^{'}) = 1$ 或 $c(τ,τ')=δ_{τ=τ'}$ 来测试位移的独特性或不变性是否是可取的（如图1所示）。我们还可以将 $w (τ, τ^{'}) = 0$ 设置为 $τ{=}\mathllap{/\,}τ'$ ，以忽略涉及不同时间偏移的比较。我们还测试了时间反转的独特性和不变性[105]，这在以前还没有进行过跨模态或对比研究。这是由变换 $r∈\mathcal{R}={r_0，r_1}$ 给出的，其中 $r_0$ 是恒等式， $r_1$ 翻转其输入张量的时间维度。我们的方法也可以用于研究任何未来可以产生有用信号的变换。

忽略比较。另一个自由度是加权函数 $w (T, T^{'})$ 的选择。根据经验，我们发现跨模态监督是一个比模态内监督更强的信号，因此如果 $T$ 和 $T^{'}$ 对同一模态进行切片，我们将 $w (T, T^{'})$ 设置为0（消融见附录）。

理解组合。最后，人们可能会问，在学习表示f时，组合几个不同的变换会有什么效果。第一个答案是第3.1节中给出的规则，以一致的方式组合单个对比度 $c(t_m,t'_m)$ 。由于这个规则，在一阶近似下， $f$ 具有单个因子的不变量和显著性的并集。然而，为了获得更准确的答案，还应该考虑批量采样方案和加权函数 $w$ 的选择的细节。这可以通过参考图1中给出的图表来完成：（1）选择一对变换 $T_i$ 和 $T_j$ ，（2）检查表中的值（其中1代表不变性，0代表显著性， $\cdot$ 代表忽略），以及（3）查找树中 $T_i$ 和 $T_j$ 的组成，以找出它们之间不同的子变换作为不变性/独特性的来源。

四、实验

我们比较了在预训练视听表征方面的自我监督方法。基于预训练的表示转移到其他（监督的）下游任务的程度来评估质量。我们首先研究模型，以确定最佳的学习转换和设置。然后，我们使用后者进行更长时间的训练，并将其与现有技术进行比较。

自我监督的预培训。对于预训练，我们考虑了标准的视听预训练数据集Kinetics-400[50]和AudioSet[31]，以及最近发布的VGG Sound数据集[17]。最后，我们还探索了我们的算法如何扩展到更大、更不精确的数据集，并在IG65M[32]上进行训练，如在XDC[5]中所做的那样。

我们的方法分别学习视觉和音频信息的一对表示 $f=(f_v,f_a)$ 。除非另有说明，否则我们使用R(2+1)D-18[101]作为视觉编码器 $f v$ ，使用具有9层的ResNet[40]作为音频编码器 $f_a$ ；两个编码器在全局时空平均池化之后产生固定维度的输出（512-D）。然后，两个向量都通过两个中间大小为512的完全连接层，以产生如[10]中的256-D嵌入，这些嵌入通过它们的L2范数[106]进行归一化。嵌入用于计算对比损失，而对于下游任务，全局时空平均池化后的线性层被随机初始化。附录中给出了进一步的实施细节。

Donwstream任务。为了评估视觉表示 $f_v$ ，我们考虑了标准的动作识别基准数据集，UCF-101[94]和HMDB-51[57]。我们测试了预训练模型在微调预训练表示、进行少镜头学习和视频动作检索等任务上的性能。为了评估音频表示 $f_a$ ，我们对常见ESC-50[82]和DCASE2014[95]基准的冻结特征训练线性分类器，并对VGG Sound进行微调[17]。详细信息见附录A.4。

4.1 广义变换的分析Analysis of generalized transformations

在本节中，我们对这里研究的GDT变换的每个参数 $T = (i, τ, m, g)$ 进行了广泛的研究，并通过在UCF-101和HMDB-51动作识别基准上微调我们的网络来评估性能，有关实现细节，请参阅附录。

样本独特性和不变量Sample distinctiveness and invariances。首先，我们实验了仅对样本选择有区别的学习表征，而对其他因素不变。这是一个重要的基本情况，因为它是最近所有自我监督方法所遵循的标准方法[18，41106]。

为此，考虑上述类型 $T = (i, τ, m, g)$ 的GDT，并设置 $K_i=768$ （我们可以在设置中拟合的最大值）， $K_m=2$ 和 $K_g=1$ ，如示例中所示，并且仅选择单个时移 $K_τ=1$ 。我们还将所有变换分量设置为不变性 $c(t_m,t'_m)=1)$ ，除了第一个进行样本选择的变换分量。

表1消除了三种类型的不变性：时移 $τ$ （通过总是在每个视频中取中间的1s剪辑来“去除”）、视觉增强 $g_v$ （通过取中心裁剪来去除）和音频增强 $g_a$ （通过从不使用SpecAugment屏蔽频谱图来去除）。这些不变量中的每一个对于学习在时间和模态上对讨厌的变换是鲁棒的表示是必要的，并且防止模型在epoch 100处过拟合。

我们发现，当以自监督的方式训练神经网络时，时移不变性 $τ$ 是必不可少的，它通常只在其他工作中作为一种增强类型被隐含地强制执行。特别是，我们在HMDB-51上将下游任务性能提高了20%以上，在UCF-101上提高了10%以上（第（b）行）。

视觉增强（ $g_v$ ）允许网络看到更多的概念视图，并导致更健壮的表示，与简单地获取中心裁剪（epoch 100处的行（c））相比，HMDB-51和UCF-101的性能分别提高了10.2%和4.5%。

此外，我们发现，与不增强相比，添加简单的音频增强可以进一步将HMDB-51的性能提高1.3%，将UCF-101的性能提高1.4%（行（d））。

在这里插入图片描述
表1：不同不变性消融的下游动作识别结果。

用不变性换显著性Exchanging invariance for distinctiveness。我们的框架允许对哪些不变性和独特性进行细粒度和表达性控制。为了证明这种灵活性，我们首先对时移进行实验，测试不变性或显著性假设是否更适合学习。为此，我们重复上面的实验，但设置 $K_τ=2$ 。这有两个效果：（1）它引入了批处理中每个视频的不同移位变体，因此强调学习这种变换；（2）它允许基于图1的分层采样方案，在批处理中具有相同视频但具有不同移位的样本。即使我们仍然像以前一样学习了一个对时移不变的表示，（1）意味着对这个因素给予了更多的重视。这就是我们在表2中观察到性能差异的原因（第（b）行与第（a）行）。然而，请注意，由于对该因素的不变性，性能会下降，这表明过度的不敏感可能会损害性能。然而，如果我们改为切换到显著性（行（c）），则性能会提高。

我们还扩展了我们的GDT框架，以测试跨模态时间反转的不变性或显著性假设是否更适合学习可转移视频表示。我们设置 $K_τ=1$ ，但将时间反转变换r添加到我们的GDT $T = (i, τ, m, g)$ 中， $K_r=2$ ，反转音频和视频。与时间偏移类似，我们还发现网络通过学习时间反转的独特性（行（e）vs（d））来学习更鲁棒、可转移的表示。

这些发现值得注意，因为它们与图像自监督学习领域的结果相矛盾，在该领域，学习借口不变性可以导致更多的可转移表示[69]。这可能是因为时移和反转是有用的信号，两者都需要学习强大的视频表示才能掌握。如果相反，针对这些信号学习不变性，我们从构建中获得的“自由”信息就会被丢弃，性能也会下降。

最后，在表2的最后一行中，我们还展示了通过允许音频和视频网络各有两个头部来组合两个对比变换的结果，以便骨干可以学习对两项任务都有用的特征。例如，以前文献中对比公式没有提供的组合（时移和反转显著性），使我们在HMDB-51数据集上的样本显著性基线提高了3%。
在这里插入图片描述

表2：不同转化假设的下游结果行动识别。

4.2 与现有技术的比较Comparison to the state of the art

鉴于我们从第4.1节开始的最佳学习设置，我们进行了更长时间的训练，并将我们的特征表示与常见视觉和听觉下游基准中的最新技术进行了比较。

下游视觉基准Downstream visual benchmarks。对于视频检索，我们在表4中报告了HMDB-51和UCF-101数据集的split-1的1、5、20个检索样本的召回情况（附录中提供了10和50个召回情况的结果）。使用我们在Kinetics-400上训练的模型，我们在两个数据集上都以超过35%的优势显著击败了所有其他自我监督方法。对于少数镜头分类，如表4所示，使用Kinetics-400预训练模型，我们在UCF-101上的每一次镜头平均显著超过RotNet3D基线10%以上。对于视频动作识别，我们对GDT预训练网络进行了微调（详见附录），并与表3中UCF-101和HMDB-51视频分类的最先进的自监督方法进行了比较。当被限制在动力学数据集上进行预训练时，我们发现我们的GDT预训练模型实现了与并发[71]类似的最先进的结果。当被限制在AudioSet[31]数据集上进行预训练时，我们还发现在所有自监督方法中都有最先进的性能。最后，我们通过在IG65M数据集上进行预训练，展示了GDT框架的可扩展性和灵活性[32]。有了这一点，我们的视觉特征表示在UCF-101和HMDB-51基准上的所有自监督方法中开创了一个新的技术水平，特别是在HMDB-511数据集上的优势超过了5%。此外，我们是第一个使用相同的架构和微调协议打破动力学监督预训练基线的方法。

下游音频基准Downstream audio benchmarks。对于音频分类，我们发现我们在DCASE2014和ESC50上实现了所有自监督方法中最先进的性能，并且在VGG Sound上也超过了监督性能。

在这里插入图片描述

五、结论

我们引入了广义数据转换的框架，该框架允许人们在单个噪声对比目标中捕获在几种先前的对比和非对比学习公式中使用的线索，并容易地合并新的线索。该框架展示了如何获得新的有意义的转换组合，编码我们希望学习的有价值的不变量和独特性。通过使用该框架，我们在标准的下游视频动作识别基准上实现了最先进的自监督预训练结果，甚至超过了监督预训练。总的来说，我们的方法显著提高了自我监督对比学习的表现力，使其成为该领域进一步研究的灵活工具。

更广泛的影响

我们认为，这项工作中提出的研究在短期和长期内可能在三个主要领域产生更广泛的影响。

减少对不太精确数据的偏见。自我监督方法的承诺是在没有手动注释的情况下学习更加稳健和通用的视觉表示模型。事实上，在越来越大的数据集上使用越来越好的方法进行训练，继续提高了下游任务的性能，我们在本文中也提出了类似的发现。这表明了与有监督或弱监督学习相比，自我监督学习的潜力和好处，也增加了降低训练数据中存在偏差的风险的潜力。随着偏见在数据收集过程中开始，使用较少策划的数据和明显更多的数据可能有助于减少偏见的模型，因为这些模型将以更多的多样性进行训练。我们还应该注意到，一旦网络对目标任务进行了微调，这些模型中存在的偏差可能会消失（也应该避免或知道这些偏差）。然而，在部署时，详细了解这一方面仍然至关重要，我们认为应该鼓励研究探索自我监督模型的底层数据分布，就像[48103]对图像的研究一样，并且在NLP领域已经做了一段时间，例如[12，80，85，115]。

医学成像中的应用。使用预先训练的视觉特征表示，例如通过在ImageNet LSVRC-12上训练获得的视觉特征，并在特定的医学成像任务中对其进行微调，已经非常成功[63，90108]。以这种方式获得的模型优于从头开始训练的模型，反之亦然，人工注释所需的专家时间更少[65]。到目前为止，这些主要是2D CNN模型被用于迁移学习，但也有一些应用是时间维度是关键的，例如超声波心脏成像[47]。自我监督视频表示模型，如本文中提出的模型，很可能对这些应用有用，其含义是a）提高医生诊断的准确性，b）降低诊断的时间成本，以及c）在没有足够训练有素的工作人员的地方促进远程诊断。然而，无监督学习中算法的一个风险是，用户可能对算法的结果过于盲目信任（在我们的情况下是网络初始化）。在实践中，不能保证算法会找到适合任何特定下游应用的解决方案。这需要经过仔细的后验验证。

有害成分检测。上传到在线平台的视频数量只会不断增加，但自动检测有害内容仍处于初级阶段。随着内容越来越多地转向视频，自我监督训练的视频模型可能对迁移学习特别有用。好处是：a）模型可以更准确地检测有害内容，从而提高召回率和准确性；b）训练好的分类器需要更少的人类注释，在这种情况下，这不仅昂贵，而且对心理有害。

此外，我们鼓励以不需要发布和分发此类材料的方式让研究界参与这些开发。最近的一项举措是仇恨模因竞赛，尽管该竞赛基于图像理解，但它捕捉到了多模态学习的困难和理解意图的细微差别。

附录

A.1理论

在这里插入图片描述

A.2 GDT概述

在这里，我们展示了我们的GDT公式可以封装和统一文献中的其他自我监督作品。我们将其分解为两部分：

将对比映射到GDT。对比最近，许多论文提出了用于图像表示学习的对比公式，如NPID[106]、PIRL[69]、MoCo[41]和SimCLR[98]。这些方法基本上都建立在我们引入的“数据采样变换” $T = (i ， g)$ 的基础上，该变换对索引为 $i$ 的图像进行采样并应用增强 $g$ 。对于NPID、MoCo和SimCLR，主要目标是仅与图像索引不同，因此由于使用了内存库，NPID的 $K=K_iK_g=1$ ，SimCLR和MoCo的 $K=K_iK_g=2$ 。对于PIRL，添加了一个不变的附加变换。例如，对于具有旋转的PIRL，数据采样方差损失仅应用于存储器组的非旋转输入 $K＝K_iK_g＝1$ ，而旋转的示例用于构造对原始示例的不变性损失，使得 $K_g＝2$ 。

非对比的对比还原。在非对比的自我监督公式中，训练 $Φ (x) = y$ 从 $x$ 回归 $y$ ，其中 $y$ 是一些“借口”任务标签。这些标签可以从数据中获得，例如时间箭头[105]、旋转[33，49]、混洗帧[70]、拼图配置[53，75]、播放速度[11，19]。因此，在我们的GDT公式中，可以通过引入时间或空间旋转的反转等变换，并将其用作反例，即与这种变换不同，来构造等效任务。例如，对于旋转，旋转相同量的片段将被视为正对，而任何其他旋转都将用于构建负对集合。因此，甚至还没有探索过的源自借口任务的转换可以被放入我们的框架中，并且，正如我们在本文中所展示的，可以自然地与其他转换相结合，从而产生更强大的表示。

A.3模态消融

在这里插入图片描述

A.4预培训细节

对于NCE对比学习，温度 $ρ$ 设置为1/0.07。为了优化这些网络，我们使用SGD。SGD重量衰减为 $10^{−5}$ ，SGD动量为0.9。我们在64个GPU中的每个GPU上使用12的小批量大小，从而为分布式训练提供768的有效批量大小。初始学习率设置为0.01，在遵循前10个时期的逐步热身计划后，我们将其与GPU数量线性缩放[35]。我们总共训练了200个时期，除了消融，我们训练了100个时期

A.5消融实验细节

对于消融，除非另有规定，否则我们只训练100个时期。对于两个下游任务，我们只评估了每个任务的第一个折叠，但发现折叠之间的性能很接近（在1-2%以内）。

A.6完整视频动作检索表

在表A.2中，我们显示了关于视频动作检索的完整表格，并与我们在不同数据集上预训练的几个模型进行了比较。

在这里插入图片描述

A.7全视频动作识别表

表A.3：视频动作识别的最新技术。在UCF101和HMDB51基准上进行自我监督和完全监督训练的方法。我们遵循标准协议，报告官方拆分的平均前1位精度，并显示整个网络的微调结果。请注意，我们发现监督基线比[5]中报告的好6%和2%左右。†的方法表示额外使用视频标题作为监督。带有*的方法使用ASR生成的文本。

在这里插入图片描述

A.8评估细节

视频。在训练过程中，我们从每个视频中随机抽取10个长度为32帧的片段。对于视频剪辑增强，我们遵循[55]中的标准协议。在评估过程中，我们从每个视频中均匀地采样10个片段，平均softmax得分，并预测具有最高平均softmax分数的类别。然后，我们测量所有视频和所有官方折叠的平均视频前1的准确性。我们使用初始学习率为0.0025的SGD，在前两个时期，我们逐渐将其预热到2-10−2。重量衰减设置为5·10−3，动量设置为0.9。我们使用32的小批量，并在6个和10个时期训练12个时期，学习率乘以5-10−2。我们将我们的GDT预训练模型与自监督方法和监督预训练进行了比较，并在表A.3中报告了UCF101和HMDB-51动作识别任务的平均前1准确率。

少镜头分类 。我们遵循[49]中的协议，并在UCF-101数据集上以及HMDB-51上使用少镜头分类来评估我们的GDT预训练网络。我们从训练集中每类随机采样 $n$ 个视频，从每个训练样本的10个片段中平均编码器的全局平均池化特征，并在用“一对一”和 $C = 1$ 训练SVM后测量验证集上的分类性能。

检索。我们遵循[109]中概述的标准协议。我们使用了UCF101的拆分1，另外还使用了HMDB-51。我们对每个视频均匀地采样10个片段，并对每个视频的每个片段的最后一个残差块之后的最大池特征进行平均。我们使用验证集中的这些平均特征来查询训练集中的视频。计算查询片段和训练集中所有片段之间的表示的余弦距离。当测试片段的类出现在k个最近的训练片段的类中时，它被认为是正确预测的。我们报告了 $k = 1 、 5 、 10 、 20 、 50$ 的准确度，并在表A.2中与UCF101和HMDB-51的其他自我监督方法进行了比较。

音频。我们从ESC50[82]的每个完整音频样本中提取10个等距的2秒子剪辑，从DCASE2014[95]的每个完整样本中提取60个1秒子剪辑。ESC-50是一个环境声音分类数据集，它有50个不同音频类别的2K个剪辑。DCASE2014是一个声学场景和事件分类数据集，包含10个不同音频类别的100个训练片段。我们保存音频编码器产生的激活，以快速训练线性分类器。我们在ResNet-18的最后一个卷积层之后使用激活，并在没有填充的情况下对输出应用核大小（1,3）和步长（1,2）的最大池。对于这两个数据集，我们使用Adam优化器[54]优化批次大小为512的L2正则化线性层，学习率为1.10−4，权重衰减设置为5-10−4，默认参数。每个音频样本的分类分数是通过对样本中的子剪辑分数取平均值，然后预测具有最高分数的类别来计算的。然后，在所有音频剪辑中获取平均前1的准确度，并在所有官方折叠中进行平均。对于VGG Sound[17]，我们遵循他们的评估指标，但由于我们的模型是预训练的，因此遵循的训练计划要短得多。我们使用Adam优化器[54]优化批量大小为128的网络，预训练主干的学习率为1.10−4，新随机初始化的线性层的学习率是1.10−3，权重衰减设置为1.10−5，默认参数。我们在10个时期降低一次学习率，并训练30个时期，在一个Nvidia GTX 1080 Titan GPU上只需不到10小时。