多语言神经机器翻译与火灾检测框架研究
立即解锁
发布时间: 2025-08-23 02:34:06 阅读量: 1 订阅数: 5 

### 多语言神经机器翻译与火灾检测框架研究
#### 多语言神经机器翻译实验
在多语言神经机器翻译领域,为了提升模型性能,尤其是在Nom - 越南语转写任务中的表现,研究人员进行了一系列实验。
##### 数据集选择
实验采用了多组不同的语言对数据集:
- 中文 - 英语(Zh - En):使用IWSLT17数据集。
- 英语 - 越南语(En - Vi):采用IWSLT15数据集。
- 中文 - 越南语(Zh - Vi):使用CLC提供的数据集,主要包含句子对齐的新闻文章和翻译成越南语的中文文学作品。
- Nom - 越南语(No - Vi):同样使用CLC提供的数据集,主要是用Nom书写的中世纪越南诗歌及其在现代国语中的音译。
| 语言对 | 数据集 | 训练集 | 验证集 | 测试集 |
| ---- | ---- | ---- | ---- | ---- |
| Zh - En | IWSLT 2017 | 229K | 1K | 1K |
| Zh - Vi | CLC | 48K | 2.7K | 2.7K |
| En - Vi | IWSLT 2015 | 133K | 1.5K | 1.2K |
| No - Vi | CLC | 6.5K | 700 | 400 |
为了对数据集进行分词,研究人员将每个翻译对的训练语料合并成一个文件,然后训练一个词汇量为20K、字符覆盖率为1.0的sentencepiece BPE模型。
##### 实验设置
总共进行了四组实验,逐步将增强方法引入多语言翻译模型:
1. **双语实验(BL)**:对应上述四种语言对,训练四个NMT模型。大部分参数遵循fairseq配置transformer iwsl de en,部分参数如批量大小、注意力头数、训练轮数和热身步数等在不同语言对中有明确设置。
| 语言对 | 批量大小 | 注意力头数 | 训练轮数 | 热身步数 |
| ---- | ---- | ---- | ---- | ---- |
| Zh - En | 4096 | 8 | 30 | 4000 |
| Zh - Vi | 2048 | 4 | 20 | 4000 |
| En - Vi | 2048 | 8 | 30 | 4000 |
| No - Vi | 1024 | 2 | 20 | 1000 |
2. **紧凑架构多语言模型实验(C)**:使用Compact翻译模型,不应用多阶段微调策略。先在四个语言对上训练模型,然后在“混合微调”阶段仅在三个语言对(Zh - Vi、En - Vi、No - Vi)上训练,语言判断比率设置为λ = 0.1。模型针对语言敏感注意力训练30个轮次,针对混合注意力训练15个轮次。
3. **多阶段微调实验(CM)**:使用Compact翻译模型并采用多阶段微调策略。第一阶段在Zh - En上训练,第二阶段在{Zh, En, No} - Vi上训练。第一阶段的丢弃率为0.2,第二阶段为0.3。每个阶段针对语言敏感注意力训练30个轮次,针对混合注意力训练15个轮次。
4. **融合BERT的多NMT系统实验(CMB)**:与实验3设置类似,但使用融合BERT的Compact模型。所有实验的drop - net比率pnet = 0.3,同时实验了控制比率γ的两个不同值0.35和0.5。BERT交叉注意力模块在编码器和解码器之间分开,仅采用混合注意力机制。
所有模型使用Adam优化器,β = (0.9, 0.98),学习率lr = 3e - 4。多语言实验使用逆平方根学习率调度,热身步数为4000,初始学习率为1e - 7,最小学习率为1e - 9。语言判断层使用具有1024个隐藏神经元的简单前馈网络实现。推理时使用束搜索大小为4,长度惩罚为0.6。
##### 实验结果
实验结果通过BLEU分数衡量:
| 实验 | 交叉注意力 | γ | 阶段 | Zh - En | Zh - Vi | En - Vi | No - Vi |
| ---- | ---- | ---- | ---- | ---- | ---- | ---- | ---- |
| BL | - | - | - | 16.4 | 26.6 | 26.2 | 69.0 |
| C | LS | - | - | 28.1 | 25.1 | 75.9 | - |
| C | HB | - | - | 26.3 | 24.6 | 78.1 | 12.7 |
| C |
0
0
复制全文
相关推荐









