超细节的 Self-Attention 知识点 - 附源码解析

本文深入探讨Self-Attention在NLP领域的核心作用,通过Q&A形式解答其时间复杂度计算及不乘QKV参数矩阵的影响,并结合PyTorch源码解析关键步骤,包括Multi-Head Attention的实现和优化。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

在当前的NLP领域,Transformer/BERT已然成为基础应用,而 Self-Attention 则是两者的核心部分,下面尝试用Q&A和源码的形式深入 Self-Attention 的细节。

Q&A

1、 Self-Attention 的核心是什么?

Self-Attention的核心是用文本中的其它词来增强目标词的语义表示,从而更好的利用上下文的信息。

2、Self-Attention 的时间复杂度是怎么计算的?

Self-Attention时间复杂度:O(n2⋅d)O(n^2 \cdot d)O(n2d),这里,n是序列的长度,d是embedding的维度,不考虑 batch 维。

Self-Attention包括三个步骤:相似度计算,softmax和加权平均

[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-t9SG6ZU8-1603506048428)(./picture/self_attention.png)]

它们分别的时间复杂度是:

相似度计算 可以看作大小为(n,d)(n,d)(n,d)(d,n)(d,n)(d,n)的两个矩阵相乘:(n,d)∗(d,n)=O(n2⋅d)(n,d)*(d,n)=O(n^2 \cdot d)(n,d)(d,n)=O(n2d),得到一个(n,n)(n,n)(n,n)的矩阵

softmax 就是直接计算了,时间复杂度为O(n2)O(n^2)O(n2)

加权平均 可以看作大小为

评论 4
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

海晨威

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值