《Improving Cross-lingual Text Classification with Zero-shot Instance-Weighting》论文笔记_evaluating unsupervised text classification: zero--CSDN博客

本文链接：https://blog.csdn.net/qq_42801194/article/details/122109585

提出一种零目标实例加权框架，用于跨语言文本分类任务。该框架通过计算源实例权重改进了模型性能，并在多种语言的数据集上进行了验证。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

1. Motivation

跨语言文本分类(CLTC)是一项具有挑战性的任务，由于缺乏低资源语言中的标记数据，因此变得更加困难。在文中，作者提出了零目标实例加权，一个通用的模型无关的零目标学习框架，通过利用源实例加权来改进CLTC。它在预先训练过的语言模型上添加了一个模块，用于实例权重的相似性计算，从而将每个源实例与目标语言对齐。在训练过程中，该框架利用由实例权重加权的梯度下降来更新参数。

2. Contribution

引入了零目标实例加权，这是一个简单但有效的、可扩展的框架，以支持零目标CLTC的实例加权迁移学习。
本文提出的方法在具有7个不同语言的三个跨语言分类任务上进行评估，结果表明，该方法在单源传输中提高了4%，在多源传输中提高了8%，为利用未标记数据的知识确定了一个有前途的方向

3. Method

在这里插入图片描述
zero-shot的CLTC框架如上图所示。源语言输入和目标语言输入分别为 $x_s$ 和 $x_t$ ，在训练期间，只有源标签 $y_s$ 可用，其任务是预测目标标签 $y_t$ 。首先应用预先训练好的模型作为编码器对输入进行编码，编码后的表示用 $h_s$ 和 $h_t$ 表示。该图说明了小批处理中每种语言的四个实例。然后有一个实例加权模块，通过考虑隐藏的表示 $h_s$ 和 $h_t$ 来为源语言实例赋权重。

3.1 Instance Weighting-based Gradient Descent

Vanilla小批量梯度下降法的定义为：
$θ←θ−α∑i=1k▽θf(yi,gθ(xi))(1)\theta \leftarrow \theta - \alpha \sum_{i=1}^k \triangledown_\theta f(y_i,g_\theta(x_i))(1)$
其中 $α\alpha$ 为学习速率， $θ\theta$ 为要更新的参数， $gθ(xi)g_\theta(x_i)$ 为 $x_i$ 的模型预测， $▽θ\triangledown \theta$ 为偏导数， $f (\cdot)$ 为损失函数。修改公式，以包括实例的权重：
$θ←θ−α∑i=1kwi⋅▽θf(yi,gθ(xi))(2)\theta \leftarrow \theta - \alpha \sum_{i=1}^k w_i·\triangledown_\theta f(y_i,g_\theta(x_i)) (2)$
为一个小批中的每个实例分配一个权重 $w_i$ ，并且有一个小批中所有实例的梯度的加权和，然后更新参数 $θ\theta$ 。它可以很容易地扩展到多种源语言，在这种情况下， $x_s$ 可能是来自多个语言的训练样本。

3.2 Unsupervised Weighting Metrics
每个批处理，为了获得每个源实例 $i$ 的权重 $w_i$ ，作者遵循基于相似度的方法，定义了一个评分函数来计算当前源实例表示 $h_i$ 和目标实例表示 $h_j$ 之间的分数。然后，对这批 $D_t$ 中的目标实例集进行一个总和，作为源实例 $i$ 的最终分数。对于 $i∈D_s$ ：
$wi=score(i,Dt)=∑j∈Dtscore(i,j)w_i=score(i,D_t)=\sum_{j∈D_t}score(i,j)$
对这批中的每个 $w_i$ 进行规范化，以确保和是1，它们被插入公示2中。
多种方法来定义评分函数评分 $(i, j)$ ，余弦评分函数表现最好，因此作者没有使用Euclidean Distance和CORAL Function，在主要实验中报告余弦函数，基于cos弦相似度的评分函数定义为：
$score(i,j)=12(hi⋅hj∣∣hi∣∣∣∣hj∣∣+1)score(i,j)=\frac{1}{2}(\frac{h_i·h_j}{||h_i|| ||h_j||}+1)$