阿拉伯语到英语神经机器翻译及无信号交叉口困境博弈的强化学习研究
立即解锁
发布时间: 2025-08-29 11:35:12 阅读量: 9 订阅数: 19 AIGC 

### 阿拉伯语到英语神经机器翻译及无信号交叉口困境博弈的强化学习研究
#### 一、阿拉伯语到英语神经机器翻译的策略梯度训练
在神经机器翻译(NMT)中,我们可以使用策略梯度来训练模型。这里采用了特定策略,将NMT模型视为与环境交互的智能体。模型的条件概率 $p(\hat{y}_i|\{\hat{y}_1, \ldots, \hat{y}_{i - 1}\}, x; \theta)$ 定义了策略,基于此策略智能体可以选择动作,在机器翻译里,动作就是在每个时间步生成下一个单词。采取动作后,NMT模型的内部隐藏状态会更新。当智能体生成完整序列 $\hat{y}$ 后,会得到一个终端奖励,在机器翻译中,奖励是BLEU分数 $R(\hat{y}, y)$,它通过比较生成句子 $\hat{y}$ 和真实句子 $y$ 来定义。
策略梯度训练的相关公式如下:
- $\nabla_{\theta}L_{PG} = -R(\hat{y}, y)\sum_{t = 1}^{T_{\hat{y}}}\nabla_{\theta}\log p(\hat{y}_t|\{\hat{y}_1, \ldots, \hat{y}_{t - 1}\}, x; \theta)$
- 为解决奖励计算针对整个句子的问题,采用奖励塑形,定义中间奖励 $r_t(\hat{y}_t, y) = R(\{\hat{y}_1, \ldots, \hat{y}_t\}, y) - R(\{\hat{y}_1, \ldots, \hat{y}_{t - 1}\}, y)$,且 $R(\hat{y}, y) = \sum_{t = 1}^{T_{\hat{y}}}r_t(\hat{y}_t, y)$
- 策略梯度训练的损失函数为 $L_{PG} = -\sum_{t = 1}^{T_{\hat{y}}}r_t(\hat{y}_t, y)\log p(\hat{y}_t|\{\hat{y}_1, \ldots, \hat{y}_{t - 1}\}, x; \theta)$
在强化学习中,初始策略通常是随机的,但对于机器翻译的大动作空间(目标词汇量)来说,这可能不是一个好选择。因此,我们先使用交叉熵(CE)训练方法对NMT模型进行 $N_{CE}$ 个周期的训练,之后再进行 $N_{CE}+P_G$ 个周期的训练,此时使用CE和PG的组合,损失函数为 $L_{com} = \eta L_{CE} + (1 - \eta)L_{PG}$,其中 $\eta$ 是控制从CE损失过渡到PG损失的超参数。
以下是策略梯度训练NMT的算法流程:
|步骤|操作|
| ---- | ---- |
|输入|带有对应翻译的句子|
|结果|优化后的翻译模型|
|训练步骤|1. 随机初始化模型并设置 $N_{CE}$、$N_{CE}+P_G$ 和 $\eta$;2. 使用公式 (4) 对模型进行 $N_{CE}$ 个周期的训练;3. 使用公式 (16) 对模型进行 $N_{CE}+P_G$ 个周期的训练|
|测试步骤|1. 使用优化后的模型和公式 (5) 生成输出 $\hat{y}$;2. 使用BLEU分数评估模型|
#### 二、实验设置与结果
为了验证策略梯度训练的效果,进行了相关实验。
1. **数据集**:使用联合国平行语料库V1.0构建阿拉伯语 - 英语翻译数据,提取了包含205k句子对的训练集,以
0
0
复制全文
相关推荐










