SimCSE主要解决的是Sentence Embedding的问题,也就是句向量。传统方式中,大部分句向量是通过词向量求和而成(词向量通常是由word2vec等方法训练而成)。显然这样的方法比较简单粗暴,而且直接加和的方式并没有利用到词与词之间的交互信息。取而代之的则是以Bert为基础的各类模型。在Bert中,通过堆叠Transformer encoder,能够捕捉到一个句子中深度双向的词与词之间的信息,并以输出层中的[CLS] token的向量来表示整个句子的向量。(关于Bert的细节问题请移步相关文章)
接下来就来到了我们的主角,SimCSE。正如SimCSE文章摘要所说,这不是一个新的模型,而是一个基于对