word_rnn.html,[论文笔记] Learning Phrase Representations using RNN Encoder–Decoder for Statistical Machi...

本文介绍了Seq2Seq模型及GRU结构在机器翻译领域的应用。通过RNNEncoder-Decoder模型,实现序列到序列的学习,有效提升了翻译质量。GRU结构简化了LSTM,减少了参数数量,降低了过拟合风险。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

bb2d1e0cd592577ad5043ffe8b9e92ed.png

我们知道,Seq2Seq 现在已经成为了机器翻译、对话聊天、文本摘要等工作的重要模型,真正提出 Seq2Seq 的文章是《Sequence to Sequence Learning with Neural Networks》,但本篇《Learning Phrase Representations using RNN Encoder–Decoder for Statistical Machine Translation》比前者更早使用了 Seq2Seq 模型来解决机器翻译的问题,本文是该篇论文的概述。

发布信息

摘要

这篇论文中提出了一种新的模型,叫做 RNN Encoder-Decoder, 并将它用来进行机器翻译和比较不同语言的短语/词组之间的语义近似程度。这个模型由两个 RNN 组成,其中 Encoder 用来将输入的序列表示成一个固定长度的向量,Decoder 则使用这个向量重建出目标序列,另外该论文提出了 GRU 的基本结构,为后来的研究奠定了基础。 因此本文的主要贡献是:

提出了一种类似于 LSTM 的 GRU 结构,并且具有比 LSTM 更少的参数,更不容易过拟合。

较早地将 Seq2Seq 应用在了机器翻译领域,并且取得了不错的效果。

模型

本文提出的模型结构如下图所示:

006tNc79gy1foubbvos97j30iw0i8q4m.jpg

这里首先对输入上文 x 走一遍 RNN,然后得到一个固定长度的向量 c,作为 Encoder,然后接下来再根据 c 和后续隐状态和输入状态来得到后续状态,Encoder 的行为比较简单,重点在 Decoder 上。

Decoder 中 t 时刻的内部状态的 ht 为:

386296ad81b08a61d871c52b62030f03.png

该时刻的输出概率则为:

6c2fbf32121606dc0a257520680db481.png 模型训练时则去最大化给定输入序列 x 时输出序列为 y 的条件概率:

1066f90e94f8806cb39aa1e7e06309ec.png 以上便是核心的公式,上面的这个就是该模型的优化目标。 在机器翻译上,作者用 Moses (一个 SMT 系统) 建立了一个 phrase based 的翻译模型作为 baseline system ,然后对比了以下四个模型的 BLEU 值

Baseline configuration

Baseline + RNN

Baseline + CSLM + RNN

Baseline + CSLM + RNN + Word penalty

四种不同的模型的 BLEU 值如下表所示:

9bbd85292a32c77f3825198811d083d5.png

phrase pair 打分的结果如下:

df6ca1b9c2d7edc2c504ebcd4e1e264a.png 其中第一栏是输入的英语 phrase ,第二栏是用传统的模型得到的最近似的三个法语 phrase,第三栏是用 Encoder-Decoder 模型得到的最近似的三个 phrase。 另外作者还说明该模型可以学习到一个比较好的效果的 Word Embedding 结果,附图如下:

f6b7e6f100ac58dcb72ec84c5dbd77b6.png 左上角的图代表全局的 Embedding 结果,另外三个图是局部结果,可以看到类似的名词都被聚到了一起。

GRU

另外本文的一个主要贡献是提出了 GRU 的门结构,相比 LSTM 更加简洁,而且效果不输 LSTM,关于它的详细公式推导,可以直接参考论文的最后的附录部分,有详细的介绍,在此截图如下:

3e4951140a87ced72bc44f01c0b0043f.png

aed180ea49a71eb1737fb5c23ea7d3bd.png

7e5f9338d4b52f15da42cc50d891a85c.png

结语

本篇论文算是为 Seq2Seq 的研究开了先河,而且其提出的 GRU 结构也为后来的研究做好了铺垫,得到了广泛应用,非常值得一读。

参考

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值