无监督语义相似度哪家强?我们做了个比较全面的评测

本文介绍了BERT-whitening方法在中英文语义相似度任务上的全面评测,对比BERT-flow,展示了BERT-whitening在多数任务中提升效果并能通过降维加速检索。实验包括多个预训练模型、Pooling方式和后处理方式的组合,为无监督语义相似度研究提供了参考。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

©PaperWeekly 原创 · 作者|苏剑林

单位|追一科技

研究方向|NLP、神经网络

一月份的时候,笔者写了《你可能不需要 BERT-flow:一个线性变换媲美 BERT-flow》[1],指出无监督语义相似度的 SOTA 模型 BERT-flow 其实可以通过一个简单的线性变换(白化操作,BERT-whitening)达到。

随后,我们进一步完善了实验结果,写成了论文《Whitening Sentence Representations for Better Semantics and Faster Retrieval》。本文将对这篇论文的内容做一个基本的梳理,并在 5 个中文语义相似度任务上进行了补充评测,包含了 600 多个实验结果。

论文标题:

Whitening Sentence Representations for Better Semantics and Faster Retrieval

论文链接:

https://arxiv.org/abs/2103.15316

代码链接:

https://github.com/bojone/BERT-whitening

方法概要

BERT-whitening 的思路很简单,就是在得到每个句子的句向量 

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值