单位:普林斯顿大学计算机科学系、清华大学跨学科信息科学研究所
时间:2021.09
发表:EMNLP
论文链接: https://arxiv.org/pdf/2104.08821.pdf
一、前言
1. SimCSE想做些什么?
学习通用句向量是自然语言处理中一个基本的问题,在sentence-bert中已经证明过原始bert生成的句向量在语义相似度任务中表示非常差,但在经过孪生网络的训练后就能生成很好的句向量表示,后续的研究如bert-flow等又对bert生成的句向量存在各向异性问题进行了改良尝试。
SimCSE想要通过在CV里大放异彩的对比学习方法使Bert学习到更好的句向量表示,进一步提升bert在统一性(Alignment)和均匀性(Uniformity)指标上的性能表现。
2. SimCSE做到了什么?
提出了一个简单的对比学习框架,它可以从未标记或标记的数据中产生更好的句向量,极大地改善了最先进的句子嵌入的语义文本相似性任务。
通过实验分析和与其它baseline模型对比,发现无监督和有监督的SimCSE在均匀性和统一性指标上都有所提升。
以BERT-base模型为基准,在STS任务上SimCSE无监督和有监督模型与之前的最佳结果相比,有4.2%和2.2%的提高。