【第四章:大模型（LLM)】09.最强开源大模型：Llama3 原理介绍与实现-(5)SwiGLU Activation function-CSDN博客

第四章：大模型（LLM）

第九部分：最强开源大模型：Llama3 原理介绍与实现

第五节：SwiGLU Activation function

这一节我们来讲解 SwiGLU 激活函数，这是 Llama3 在前馈网络（Feed Forward Network, FFN）中采用的激活方式。

1️⃣ 背景：为什么要引入 SwiGLU？

在 Transformer 中，前馈网络（FFN） 占据了很大一部分计算量与参数量。
传统的激活函数（如 ReLU, GELU）虽然表现稳定，但在超大规模语言模型中，研究发现 门控型激活函数（Gated Activation Functions） 可以提升表达能力与训练稳定性。

代表性方法是 GLU（Gated Linear Unit）系列。

通过引入一个 门控机制（Gate），让输入在流入非线性函数之前被“选择性放大/抑制”。
对语言建模尤其有效。

2️⃣ GLU 系列激活函数

(1) 基本 GLU

提出于 2016 年：

$\text{GLU}(x) = (XW_1) \otimes \sigma(XW_2)$

σ 是 Sigmoid 激活函数。
第一个线性层 $XW_1$ 产生“主分支”。
第二个线性层 $XW_2$ 产生“门控信号”，控制信息流。

(2) GELU-based GLU（GEGLU）

$\text{GEGLU}(x) = (XW_1) \otimes \text{GELU}(XW_2)$

用 GELU 替代 Sigmoid，提升了性能。

(3) Swish-based GLU（SwiGLU） —— Llama3 采用

$\text{SwiGLU}(x) = (XW_1) \otimes \text{Swish}(XW_2)$

其中 Swish 函数为：

$\text{Swish}(z) = z \cdot \sigma(z)$

相比 ReLU/GELU，Swish 具有更好的平滑性，梯度传播更稳定。

3️⃣ SwiGLU 的形式化定义

给定输入向量 $X \in \mathbb{R}^d$ ，

经过两组线性变换：

$U = XW_1, \quad V = XW_2$

其中 U 是主分支，V 是门控分支。

SwiGLU 公式：

$\text{SwiGLU}(X) = U \otimes \text{Swish}(V) = (XW_1) \otimes \left( (XW_2) \cdot \sigma(XW_2) \right)$

其中 ⊗ 表示逐元素乘法。

4️⃣ Llama3 中的前馈网络结构（FFN with SwiGLU）

在 Llama3 的 Transformer Block 中，FFN 采用如下结构：

$\text{FFN}(X) = (XW_1) \otimes \text{Swish}(XW_2) \cdot W_3$

特点：

仍然是 双分支结构（主分支 + 门控分支）。
SwiGLU 替代传统的 GELU/ReLU，提升表达能力。
输出再经过第三个线性投影 $W_3$ 回到模型维度。

PyTorch 实现（简化版）

import torch
import torch.nn as nn
import torch.nn.functional as F

class SwiGLU(nn.Module):
    def __init__(self, dim, hidden_dim):
        super().__init__()
        self.W1 = nn.Linear(dim, hidden_dim, bias=False)
        self.W2 = nn.Linear(dim, hidden_dim, bias=False)
        self.W3 = nn.Linear(hidden_dim, dim, bias=False)

    def forward(self, x):
        u = self.W1(x)
        v = self.W2(x)
        # Swish 激活：v * sigmoid(v)
        swish_v = v * torch.sigmoid(v)
        return self.W3(u * swish_v)