面试回答简洁版
Transformer模型主要由以下组件组成:
-
嵌入层(Embedding Layer)
- Token Embedding:将token转换为词向量。
- Positional Embedding:提供位置信息,帮助模型理解序列顺序。
- (可选)Segment Embedding:用于区分不同句子或段落(如BERT)。
-
编码器(Encoder)
-
由多个相同模块组成,每个模块包含两个核心子层:
- 多头自注意力机制(Multi-head Self-Attention):允许模型关注序列不同位置的信息。
- 前馈神经网络(Feed-Forward Network,FFN):两个线性变换及激活函数,进一步特征提取。
-
每个子层都配备残差连接和层归一化。
-
-
解码器(Decoder,若存在)
-
由多个模块堆叠,每个模块包括:
- 掩码多头自注意
-