zsf1993524-CSDN博客

原创 transformer中attention计算复杂度分析

Transformer中的多头注意力（Multi-Head Attention）将注意力机制分为多个头，每个头计算一个独立的注意力子空间，然后将这些头的结果拼接在一起。Transformer中的自注意力机制的计算复杂度是 O(N^2 \cdot d)，其中 N 是序列长度，d 是词向量维度。点积的复杂度为 O(N^2 \cdot d)，因为每个Query都与所有Key进行点积计算（有 N 个Query，和 N 个Key），每次点积需要 O(d) 的时间。然后计算每个词与其他词的注意力权重。

2025-03-10 15:17:08 769

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人