单位:中国科学院信息工程研究所,中国科学院大学,快手科技
时间:2022.09
发表:COLING
论文链接: https://arxiv.org/abs/2109.04380
一、前言
1. ESimCSE想做些什么?
SimCSE 采用两次 dropout 作为一对正样本来当作数据增强的方法(详细内容可见我的上一篇笔记),但这样有一个不好的地方就是模型会偏向认为具有相同长度的句子彼此之间就更为相似。
为了验证这一观点,作者根据句子对的长度差异是否≤3,将每个STS测试集划分为两组,计算每组的模型预测和正则化标准答案之间的相似度差异。结果如表所示,当长度差≤3时,七个数据集的平均相似性差异较大,这验证了作者的假设。

让我比较奇怪的是下面的 ESimCSE ,虽然两者的差距是缩小了,但相似性差异都比 SimCSE 差异大是怎么回事。
2. ESimCSE做到了什么?
为了缓解上述的问题,作者应用一个简单而有效的重复操作来修改输入句子,然后将输入的句子及其修改后的对应句子分别传递给预先训练好的 Transformer 编码器,彼此间作为正样本。此外,还从计算机视觉领域获得灵感,引入了动量对比来增加负数对的数量,而不需要进行额外的计算。
实验结果表明,ESimCS