[ACL2022] DCLR: 无监督句子表征的去偏对比学习-CSDN博客

文章探讨了对比学习中假负例的问题，指出简单地将batch内其他样本作为负例可能导致学习偏差。为此，提出了两种改进方法：一是利用高斯分布生成噪声样本，并进行梯度更新以提高负样本质量；二是通过预训练模型对batch内负样本加权，减少假负例的影响。实验结果显示，这些方法在多个数据集上提高了模型性能。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

背景

句子表征一直是一个很卷的方向。从最开始的DSSM到现在的对比学习(如: SimCSE、CoSERT等)，效果不断被刷新。但是在对比学习中，有个问题一直待解决: 假负例。即一个batch内除了自身以外全部视为当前样本的负例，这样显然有些简单粗暴。如下图:

作者使用simcse训练好的模型在wikipedia的数据集上做了一个测试，当前一个样本和其在一个batch内的255个负例做了相似度计算，发现50%+的样本相似度都大于0.5，也就是有很多都是假负例。显然，这样的学习是有偏的。

针对这种问题，本文提出了一种负采样纠偏的对比学习方法。创新点主要有两个: (1)通过高斯分布产生随机噪声样本。(2)给同batch内的负例进行加权。下面我们看看具体的做法。

模型介绍

上述是本文的模型结构图，左边是输入部分。负样本是随机采样的负样本。正样本可以是dropout生成正例，或者通过增、删等数据增强的方式得到正例。右边分为两部分: Instance Weighting和Noise-based Negatives。即对负例加权，通过高斯分布产生噪声负样本。下面来看看这两种方式的具体实现: