段落级分层神经机器翻译:创新模型提升翻译性能
1. 研究背景与动机
近年来,分层结构在段落和文档建模方面展现出明显优势,但现有模型难以直接应用于段落平行语料库,因为段落对中句子的数量和顺序存在差异。本研究首次尝试基于段落平行语料库探索端到端的段落级神经机器翻译(NMT),旨在解决NMT中数据稀缺的问题,并提出一种分层模型,以结构化方式从词级和句子级抽象中获取上下文信息。
2. 主要贡献
- 引入文学作品语料库 :首次将基于文学作品(小说)的段落级语料库引入NMT,并将在GitHub上共享语料库和代码。
- 分层编码解码结构 :采用两层分层编码器和解码器结构,分两步将整个段落压缩为抽象表示,再分两步进行解码,从段落到句子,再从句子到单词,在预测时考虑整个段落的信息。
- 显著优于基线模型 :实验结果表明,该模型在翻译任务中显著优于七个强大的基线模型。
3. 相关工作
许多研究人员尝试在不同的自然语言处理(NLP)任务中使用分层结构模型,如段落和文档的自动编码器、长句翻译、查询建议、对话建模和文档分类等。然而,基于文学翻译的段落平行语料库在NMT中尚未得到充分研究,现有模型大多基于句子对齐语料库,不太适用于段落平行语料库的翻译。
4. 提出的方法
4.1 语料库构建
为了建立语料库,需要将双语电子书的格式从pdf、mobi、epub和azw3转换为文本,去除无效单词和乱码,将双语文本分为两个单独