Transformer(三):论文 Attention Is All You Need

一般好的文章都有个好名字,《Attention Is All You Need》这篇论文一看名字就知道很厉害。

论文原文:https://arxiv.org/abs/1706.03762

最初这篇论文主要是针对机器翻译来写的,随着gpt和bert把这个架构用在更多的自然语言处理的任务上时,整个工作就出圈了。现在图片、音频和视频,几乎什么东西都能用,这也是它爆火的原因之一。

首先,我们来看论文的标题、摘要和结论。

摘要梗概

        transformer模型仅依赖于注意力机制,没有使用之前的循环或卷积。作者做了2个机器翻译的实验,显示了这个模型在性能上特别好,并行度很好、且训练时间更少。在英语到德语的翻译工作,我们比目前最好的结果,好了2个BLUE。在英语到法语的翻译任务上,做了一个单模型。比所有的模型效果都好。只在8个GPU上训练了3.5天。transformer架构能够泛化到别的任务上,都很好。

摘要解读

  • 作者提出了一个新的模型,主要用在哪呢,用在机器翻译的任务上。 
  • 这就是作者的贡献,提出了一个新的简单的模型,且跟之前表现很好的模型架构都不一样。
  • BLUE score是机器翻译里常用的衡量标准。
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值