【论文泛读105】Transformer中微调与组合的相互作用

该博客围绕预训练的Transformer语言模型展开,研究微调对上下文嵌入捕获短语含义信息能力的影响。通过对特定任务模型微调及后续分析,发现微调在使表示组合性受益方面效果不佳,还确定了复述数据集中的混杂线索,指出未来应研究模型属性与微调的相互作用及转向短语级训练。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

贴一下汇总贴:论文阅读记录

论文链接:《On the Interplay Between Fine-tuning and Composition in Transformers》

一、摘要

预训练的 Transformer 语言模型在各种 NLP 任务上表现出卓越的性能。然而,最近的研究表明,这些模型中的短语级表示反映了词汇内容的重大影响,但缺乏复杂的、组合短语信息的证据。在这里,我们研究了微调对上下文嵌入的能力的影响,以捕获超出词汇内容的短语含义信息。具体来说,我们对具有高词汇重叠的对抗性释义分类任务和情感分类任务的模型进行了微调。在微调之后,我们在之前的工作之后分析受控设置中的短语表示。我们发现微调在很大程度上无法使这些表示中的组合性受益,尽管对情绪的训练产生了很小的、某些型号的本地化收益。在后续分析中,我们确定了复述数据集中的混杂线索,这些线索可以解释该任务缺乏作文的好处,并讨论了情感训练局部收益的潜在因素。

二、结论

我们已经测试了微调对变压器表示中短语含义构成的影响。虽然我们选择的任务有望解决作文弱点和对单词重叠的依赖,但我们发现微调模型中的表示在受控作文测试中几乎没有改善,或者仅显示非常局部的改善。后续分析表明,PAWS-QQP数据集包含虚假的线索,破坏了复杂的意义属性的学习时,训练的任务。然而,来自SST调优的结果表明,在不同大小的标记短语上进行训练对于学习作文是有效的。未来的工作应该研究模型属性如何与微调相互作用,以在特定的模型和层中产生改进——并且应该转向具有丰富意义注释的短语级训练,我们预测这将是改进模型短语意义组成的有前途的方向。

三、模型

选择了两个不同的数据集,它们具有解决这些弱点的有希望的特征。我们对这些任务进行微调,然后对微调后的模型中的上下文化表示进行分层测试,并与预训练模型的结果进行比较。

  • PAWS-QQP数据集,正反均有很高的词汇重叠度。
    在这里插入图片描述
  • SST
    与短语合成的训练和评估相关联的数据集是斯坦福情感树库,它包含各种长度的句法短语,以及这些短语的细粒度人工注释情感标签。因为该数据集包含各种大小的组合短语的注释,所以我们可以合理地期望在该数据集上的训练可以培养对组合短语含义的增加的敏感性。
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值