阿拉伯语到英语神经机器翻译及无信号交叉口困境博弈的强化学习研究

### 阿拉伯语到英语神经机器翻译及无信号交叉口困境博弈的强化学习研究 #### 一、阿拉伯语到英语神经机器翻译的策略梯度训练在神经机器翻译（NMT）中，我们可以使用策略梯度来训练模型。这里采用了特定策略，将NMT模型视为与环境交互的智能体。模型的条件概率 $p(\hat{y}_i|\{\hat{y}_1, \ldots, \hat{y}_{i - 1}\}, x; \theta)$ 定义了策略，基于此策略智能体可以选择动作，在机器翻译里，动作就是在每个时间步生成下一个单词。采取动作后，NMT模型的内部隐藏状态会更新。当智能体生成完整序列 $\hat{y}$ 后，会得到一个终端奖励，在机器翻译中，奖励是BLEU分数 $R(\hat{y}, y)$，它通过比较生成句子 $\hat{y}$ 和真实句子 $y$ 来定义。策略梯度训练的相关公式如下： - $\nabla_{\theta}L_{PG} = -R(\hat{y}, y)\sum_{t = 1}^{T_{\hat{y}}}\nabla_{\theta}\log p(\hat{y}_t|\{\hat{y}_1, \ldots, \hat{y}_{t - 1}\}, x; \theta)$ - 为解决奖励计算针对整个句子的问题，采用奖励塑形，定义中间奖励 $r_t(\hat{y}_t, y) = R(\{\hat{y}_1, \ldots, \hat{y}_t\}, y) - R(\{\hat{y}_1, \ldots, \hat{y}_{t - 1}\}, y)$，且 $R(\hat{y}, y) = \sum_{t = 1}^{T_{\hat{y}}}r_t(\hat{y}_t, y)$ - 策略梯度训练的损失函数为 $L_{PG} = -\sum_{t = 1}^{T_{\hat{y}}}r_t(\hat{y}_t, y)\log p(\hat{y}_t|\{\hat{y}_1, \ldots, \hat{y}_{t - 1}\}, x; \theta)$ 在强化学习中，初始策略通常是随机的，但对于机器翻译的大动作空间（目标词汇量）来说，这可能不是一个好选择。因此，我们先使用交叉熵（CE）训练方法对NMT模型进行 $N_{CE}$ 个周期的训练，之后再进行 $N_{CE}+P_G$ 个周期的训练，此时使用CE和PG的组合，损失函数为 $L_{com} = \eta L_{CE} + (1 - \eta)L_{PG}$，其中 $\eta$ 是控制从CE损失过渡到PG损失的超参数。以下是策略梯度训练NMT的算法流程： |步骤|操作| | ---- | ---- | |输入|带有对应翻译的句子| |结果|优化后的翻译模型| |训练步骤|1. 随机初始化模型并设置 $N_{CE}$、$N_{CE}+P_G$ 和 $\eta$；2. 使用公式 (4) 对模型进行 $N_{CE}$ 个周期的训练；3. 使用公式 (16) 对模型进行 $N_{CE}+P_G$ 个周期的训练| |测试步骤|1. 使用优化后的模型和公式 (5) 生成输出 $\hat{y}$；2. 使用BLEU分数评估模型| #### 二、实验设置与结果为了验证策略梯度训练的效果，进行了相关实验。 1. **数据集**：使用联合国平行语料库V1.0构建阿拉伯语 - 英语翻译数据，提取了包含205k句子对的训练集，以

最低0.47元/天解锁专栏

赠100次下载

继续阅读点击查看下一篇

400次会员资源下载次数

300万+ 优质博客文章

1000万+ 优质下载资源

1000万+ 优质文库回答

复制全文

阿拉伯语到英语神经机器翻译及无信号交叉口困境博弈的强化学习研究

相关推荐

专栏目录

阿拉伯语到英语神经机器翻译及无信号交叉口困境博弈的强化学习研究

相关推荐

和阿拉伯语自然音频相关的数据集

关于发音部位的英语和阿拉伯语声音系统比较

深度学习在摩洛哥方言情感分析与阿拉伯语-英语神经机器翻译中的应用

用于阿拉伯语到英语机器翻译的Transformer模型和卷积神经网络

无监督神经机器翻译生成阿拉伯语语法纠错训练数据与卷积模型

简易阿拉伯语到中文机器翻译系统：基于短语的统计方法

使用神经网络区分阿拉伯语与英语数字：Matlab教程

阿拉伯语-英语词内语码转换的深度学习研究

阿拉伯语至英语翻译：seg2seg模型的实验分析

检测阿拉伯语和英语的说服力-研究论文

vscode源码分析【二】程序的启动逻辑，第一个窗口是如何创建的

新能源汽车BMS系统中EKF-SOC与均衡控制的Matlab仿真研究

专栏目录

最新推荐

Tableau高级功能：地图与仪表盘操作指南

Tableau基础图表的创建与理解

预训练模型的十大关键问题探索

优化PowerBI体验与DAX代码的实用指南

数据故事创作：从理论到实践的全面指南

电子商务中的聊天机器人：开发、测试与未来趋势

概率注释模型：特征添加与序列标注任务建模

利用MicrosoftFairlearn实现AI系统的公平性

Snowflake数据平台全方位解析

问答与对话系统技术探索