论文阅读笔记AI篇 —— Transformer模型理论+实战 (一)

原创

已于 2024-01-15 14:40:45 修改 · 713 阅读

·

8

·

CC 4.0 BY-SA版权

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

文章标签：

#人工智能 #论文阅读 #笔记

于 2024-01-15 12:15:44 首次发布

资源地址
Attention is all you need.pdf(0积分) - CSDN

第一遍阅读（Abstract + Introduction + Conclusion）

Abstract中强调Transformer摒弃了循环和卷积网络结构，在English-to-German翻译任务中，BLEU得分为28.4，在English-to-French的翻译任务中的BLEU得分为41.0，用8张GPU训练了3.5天，与各文献中的best models相比，这是非常小的训练成本。

Introduction中对RNN的一些工作做了总结，它说RNN结构本身，在序列长度变长时会产生限制，虽然有些工作通过factorization tricks因式分解和conditional computation对其进行运算效率上的提高，并且后者可以提高模型性能，但是，对于序列处理的最基本的局限性还是存在的。Attention机制已经在许多任务的序列建模和翻译任务中成为了重要的一部分，并且在大多数情况下，Attention机制都会与recurrent network一起使用。
然后作者说，他们提出了一种抛弃recurrent结构，完全使用Attention机制去描述input与output之间的全局关系。Transformer允许更大的并行度，并且在8张P100的GPU上训练了25h后，就在翻译质量上达到了SOTA。

Conclusion说，Transformer将

最低0.47元/天解锁文章

200万优质内容无限畅学

评论 1

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。