NAACL 2022 | TAMT:通过下游任务无关掩码训练搜索可迁移的BERT子网络

该研究提出了任务无关掩码训练(TAMT)方法,用于在预训练阶段优化BERT子网络结构,提高其在下游任务的迁移能力。TAMT在预训练任务上学习子网络结构,然后在多种下游任务中进行微调,相比权重剪枝方法在高稀疏性下展现出更好的性能和效率。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

e9b880f207315c07fd2b49847c0fc67c.gif

©PaperWeekly 原创 · 作者 | 刘源鑫

单位 | 中科院信工所

研究方向 | 模型压缩

eb271af095d06b7aa05e16a15d800945.png

论文标题:

Learning to Win Lottery Tickets in BERT Transfer via Task-agnostic Mask Training

收录会议:

NAACL 2022

论文链接:

https://arxiv.org/abs/2204.11218

代码链接:

https://github.com/llyx97/TAMT

416db8726db0b1e72cea74e7c3a698bd.png

动机

以 BERT 的问世为标志,“预训练+ 下游任务微调”成为了 NLP 任务的一个主流范式。研究趋势显示,持续增长的参数量是预训练语言模型(PLM) 获得成功的一个关键因素。然而,这也增大了 PLM 在下游任务微调和部署的开销。

与此同时,近期关于彩票假设(Lottery Ticket Hypothesis, LTH [1])的研究 [2]发现,基于权重的剪枝(magnitude-based pruning)可以在预训练的 BERT 模型中发现一些 winning ticket 子网络,它们可以迁移到多个下游任务微调,并取得和完整 BERT 相当的效果。

通过初步的实验分析,我们发现这些 winning ticket 子网络良好的下游任务迁移效果,和它们在预训练任务上的效果存在相关性。如图 1 所示,在 50% sparsity 下,oneshot magnitude pruning (OMP)[1] 得到的子网络在预训练 mask language modeling(MLM)任务和下游任务上都明显超过随机子网络。然而,随着 sparsity [2] 持续上升,OMP 子网络在 MLM 任务和下游任务上的效果同时下降。这意味着如果我们能够找到在预训练任务上性能更好的 BERT 子网络,那么它们很可能也有更好的下游任务的迁移能力。

e07a1a995d3fdddc095f983c5f5d5a39.png

▲ 图1 OMP子网络和随机子网络(Rand)在下游任务(左)和预训练任务(右)的表现

849eddbddc4d8994ddf2d0849483a24a.png

下游任务无关的掩码训练TAMT

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值