11、文本重排序的多级架构:从段落到文档排名的探索

文本重排序的多级架构:从段落到文档排名的探索

1. 超越传统的BERT训练技巧

在文本排名领域,研究人员一直在探索除了“预训练然后微调”之外的多种技术来“训练”BERT和其他Transformer模型。他们尝试利用“相关”数据,包括无监督和有监督的方式,甚至在零样本设置中不使用目标数据。例如,Birch和monoT5等模型就采用了零样本方法,即模型在域外数据上训练后直接应用于目标任务。

然而,这些技巧的应用细节仍像是一门艺术,需要大量的试验和错误。比如,运行多少个训练周期、以何种顺序应用域外数据集、如何启发式地标记和选择数据以及零样本方法何时有效等问题,都还没有明确的答案。盲目微调可能会导致预测不稳定、泛化能力差以及偏离任务指标等问题,尤其是在训练数据有噪声的情况下。虽然我们大致了解各种微调技术的工作原理,但还需要更多研究来准确预测和建模预期收益,避免反复进行大量实验。

2. 从段落排名到文档排名的挑战

monoBERT存在一个显著的局限性,即它无法有效解决BERT及其简单变体的输入长度限制问题。由于BERT的架构和预训练过程,模型在处理超过512个标记的输入序列时,无论是从模型效果还是计算需求方面都面临困难。

具体来说,由于BERT只对最多512个标记的输入序列进行了预训练,超过512的标记位置的位置嵌入无法获取。而位置嵌入对于模型理解语言的线性结构至关重要,如果输入序列缺乏这个信号,模型就会将输入视为词袋,从而失去对语言结构的理解。从计算角度看,BERT在每个Transformer编码器层的全连接注意力模式导致其在时间和空间上都呈现出与输入长度相关的二次复杂度,单纯增加硬件资源并不是实际可行的解决方案。

BERT

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值