自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(1)
  • 收藏
  • 关注

原创 transformer中attention计算复杂度分析

Transformer中的多头注意力(Multi-Head Attention)将注意力机制分为多个头,每个头计算一个独立的注意力子空间,然后将这些头的结果拼接在一起。Transformer中的自注意力机制的计算复杂度是 O(N^2 \cdot d),其中 N 是序列长度,d 是词向量维度。点积的复杂度为 O(N^2 \cdot d),因为每个Query都与所有Key进行点积计算(有 N 个Query,和 N 个Key),每次点积需要 O(d) 的时间。然后计算每个词与其他词的注意力权重。

2025-03-10 15:17:08 769

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除