深度学习梯度弥散与爆炸

极光喵

已于 2024-03-14 23:22:46 修改

阅读量1.3k

点赞数 14

CC 4.0 BY-SA版权

文章标签：深度学习人工智能

于 2024-03-05 10:58:36 首次发布

本文链接：https://blog.csdn.net/qq_39297053/article/details/136380646

注意：本文引用自专业人工智能社区Venus AI

问题描述

梯度弥散：在深层神经网络中，梯度弥散是指在反向传播过程中梯度逐渐变小，以至于在网络的较浅层梯度接近于零。导致网络的这些层的权重几乎不更新，使得模型难以学习到输入数据的复杂特征。
梯度爆炸：相对地，梯度爆炸是指梯度在反向传播过程中变得异常大，导致权重更新过度，从而造成模型参数极端不稳定，甚至数值溢出。这会导致模型无法收敛，训练过程中的权重更新剧烈，使得模型性能大幅下降。

图片[1]-深度学习梯度弥散与爆炸-VenusAI

我们用 Python 脚本来可视化梯度消失和梯度爆炸现象，可以创建一个深层神经网络并通过它传递一些随机数据，然后观察不同层的梯度大小。为了简化，我们可以使用一个全连接的神经网络，并使用不同的激活函数来模拟梯度消失和爆炸。

在下面的例子中，我将构建一个简单的深层神经网络，使用 PyTorch 进行演示。我们将观察在正向传播后，通过反向传播计算的梯度在不同层的大小。这将帮助我们理解梯度消失和爆炸是如何发生的。

import torch
import torch.nn as nn
import matplotlib.pyplot as plt

# 定义一个简单的多层全连接神经网络
class SimpleNet(nn.Module):
    def __init__(self, layer_sizes, init_method=None):
        super(SimpleNet, self).__init__()
        layers = []
        for i in range(len(layer_sizes) - 1):
            layers.append(nn.Linear(layer_sizes[i], layer_sizes[i + 1]))
            layers.append(nn.ReLU())
        self.net = nn.Sequential(*layers[:-1])  # 移除最后一个ReLU

        # 应用初始化方法
        if init_method:
            for layer in self.net:
                if type(layer) == nn.Linear:
                    init_method(layer.weight)

    def forward(self, x):
        return self.net(x)

def visualize_gradients(layer_sizes, init_method=None):