《Improving Cross-lingual Text Classification with Zero-shot Instance-Weighting》论文笔记

提出一种零目标实例加权框架,用于跨语言文本分类任务。该框架通过计算源实例权重改进了模型性能,并在多种语言的数据集上进行了验证。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

1. Motivation

跨语言文本分类(CLTC)是一项具有挑战性的任务,由于缺乏低资源语言中的标记数据,因此变得更加困难。在文中,作者提出了零目标实例加权,一个通用的模型无关的零目标学习框架,通过利用源实例加权来改进CLTC。它在预先训练过的语言模型上添加了一个模块,用于实例权重的相似性计算,从而将每个源实例与目标语言对齐。在训练过程中,该框架利用由实例权重加权的梯度下降来更新参数。

2. Contribution

  1. 引入了零目标实例加权,这是一个简单但有效的、可扩展的框架,以支持零目标CLTC的实例加权迁移学习。
  2. 本文提出的方法在具有7个 不同语言的三个跨语言分类任务上进行评估,结果表明,该方法在单源传输中提高了4%,在多源传输中提高了8%,为利用未标记数据的知识确定了一个有前途的方向

3. Method

在这里插入图片描述
zero-shot的CLTC框架如上图所示。源语言输入和目标语言输入分别为xsx_sxsxtx_txt,在训练期间,只有源标签ysy_sys可用,其任务是预测目标标签yty_tyt。首先应用预先训练好的模型作为编码器对输入进行编码,编码后的表示用hsh_shshth_tht表示。该图说明了小批处理中每种语言的四个实例。然后有一个实例加权模块,通过考虑隐藏的表示hsh_shshth_tht来为源语言实例赋权重。

3.1 Instance Weighting-based Gradient Descent

Vanilla小批量梯度下降法的定义为:
θ←θ−α∑i=1k▽θf(yi,gθ(xi))(1)\theta \leftarrow \theta - \alpha \sum_{i=1}^k \triangledown_\theta f(y_i,g_\theta(x_i))(1)θθαi=1kθf(yi,gθ(xi))(1)
其中α\alphaα为学习速率,θ\thetaθ为要更新的参数,gθ(xi)g_\theta(x_i)gθ(xi)xix_ixi的模型预测,▽θ\triangledown \thetaθ为偏导数,f(⋅)f(·)f()为损失函数。修改公式,以包括实例的权重:
θ←θ−α∑i=1kwi⋅▽θf(yi,gθ(xi))(2)\theta \leftarrow \theta - \alpha \sum_{i=1}^k w_i·\triangledown_\theta f(y_i,g_\theta(x_i)) (2)θθαi=1kwiθf(yi,gθ(xi))(2)
为一个小批中的每个实例分配一个权重wiw_iwi,并且有一个小批中所有实例的梯度的加权和,然后更新参数θ\thetaθ。它可以很容易地扩展到多种源语言,在这种情况下,xsx_sxs可能是来自多个语言的训练样本。

3.2 Unsupervised Weighting Metrics
每个批处理,为了获得每个源实例iii的权重wiw_iwi,作者遵循基于相似度的方法,定义了一个评分函数来计算当前源实例表示hih_ihi和目标实例表示hjh_jhj之间的分数。然后,对这批DtD_tDt中的目标实例集进行一个总和,作为源实例iii的最终分数。对于i∈Dsi∈D_siDs
wi=score(i,Dt)=∑j∈Dtscore(i,j)w_i=score(i,D_t)=\sum_{j∈D_t}score(i,j)wi=score(i,Dt)=jDtscore(i,j)
对这批中的每个wiw_iwi进行规范化,以确保和是1,它们被插入公示2中。
多种方法来定义评分函数评分(i,j)(i,j)(i,j),余弦评分函数表现最好,因此作者没有使用Euclidean Distance和CORAL Function,在主要实验中报告余弦函数,基于cos弦相似度的评分函数定义为:
score(i,j)=12(hi⋅hj∣∣hi∣∣∣∣hj∣∣+1)score(i,j)=\frac{1}{2}(\frac{h_i·h_j}{||h_i|| ||h_j||}+1)score(i,j)=21(hihjhihj+1)

4. Experiment

在意见目标提取、文档分类和情绪分类三个任务中,由于选择了预先训练好的模型,两种基础模型对所有语言都取得了较好的结果。实例加权对几乎所有的目标语言都比基本模型产生了一致的改进。
请添加图片描述

  • 最佳模型XLMR+IW平均比最佳基线高出4.65%,在俄语上比XLMR提高了4%,在其他目标语言上也大幅提高;
    请添加图片描述
  • XLMR+IW的表现超过了基线,并稳步超过了XLMR,在俄罗斯,中国和西班牙方面有令人印象深刻的增长。

请添加图片描述

  • 最佳模型在大多数情况下都显示出相同的趋势。虽然本文方法与模型无关,可以看到从mBERT切换到XLMR所获得的改进结果看出,但当基本模型或嵌入得到改进时,实例加权仍然会有帮助。
  • 考虑到这些观察结果,该框架很简单,但也很有效。最重要的是,它不需要额外的外部数据,并且很容易适应于任何深度模型。

请添加图片描述

  • 通过轻松地扩展到多源语言培训,在所有目标语言中都得到了显著的提升。具体来说,俄语提高了8.1%。
  • 通过易于适应,展示了可扩展性和多语言迁移在零射击学习中是一个很有前途的方向。
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值