- 博客(1)
- 收藏
- 关注
原创 transformer中attention计算复杂度分析
Transformer中的多头注意力(Multi-Head Attention)将注意力机制分为多个头,每个头计算一个独立的注意力子空间,然后将这些头的结果拼接在一起。Transformer中的自注意力机制的计算复杂度是 O(N^2 \cdot d),其中 N 是序列长度,d 是词向量维度。点积的复杂度为 O(N^2 \cdot d),因为每个Query都与所有Key进行点积计算(有 N 个Query,和 N 个Key),每次点积需要 O(d) 的时间。然后计算每个词与其他词的注意力权重。
2025-03-10 15:17:08
769
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人