1.Transformer注意力
注意力模块(Attention Module)是深度学习中一种重要的机制,旨在让模型在处理输入数据时能够动态地关注最重要的部分。它最初在自然语言处理(NLP)领域被提出,并逐渐扩展到计算机视觉、语音识别等多个领域。
核心思想:注意力机制的核心思想是模仿人类的注意力分配方式,即根据任务需求动态地关注输入数据的不同部分。通过计算权重,模型可以决定哪些部分的信息对当前任务更为重要。
主要类型:
1. 全局注意力(Global Attention): 关注整个输入序列的所有部分。适用于需要全局信息的任务,如机器翻译。
2. 局部注意力(Local Attention):只关注输入序列的一部分。适用于长序列任务,减少计算复杂度。
3. 自注意力(Self-Attention):输入序列内部的元素相互关注。广泛应用于Transformer模型。
4. 多头注意力(Multi-Head Attention):通过多个注意力头并行处理输入,捕捉不同子空间的信息。增强模型的表达能力。
计算步骤:
1. 计算注意力分数:通过查询(Query)、键(Key)和值(Value)计算注意力分数,通常使用点积或加性注意力。
2. 归一化:使用Softmax函数将分数转换为概率分