没有合适的资源?快使用搜索试试~ 我知道了~
Task03:过拟合、欠拟合及其解决方案;梯度消失、梯度爆炸;循环神经网络进阶
0 下载量 79 浏览量
2021-01-07
02:55:38
上传
评论
收藏 695KB PDF 举报
温馨提示
Task03: 过拟合、欠拟合及其解决方案;梯度消失、梯度爆炸;循环神经网络进阶 目录 Task03: 过拟合、欠拟合及其解决方案;梯度消失、梯度爆炸;循环神经网络进阶 1、过拟合、欠拟合及其解决方案 1.1 训练误差和泛化误差 1.2 模型选择 1.3 过拟合和欠拟合 1.4 权重衰减 1.5 丢弃法 2、梯度消失、梯度爆炸 2.1 定义 2.2 随机初始化模型参数 2.3 考虑环境因素 3、循环神经网络进阶 3.1 门控循环单位(GRU) 3.2 长短期记忆(LSTM) 3.3 深度循环神经网络 3.4 双向循环神经网络 1、过拟合、欠拟合及其解决方案 1.1 训练误差和泛化误差 训练误差
资源推荐
资源详情
资源评论

























Task03:过拟合、欠拟合及其解决方案;梯度消失、梯度爆:过拟合、欠拟合及其解决方案;梯度消失、梯度爆
炸;循环神经网络进阶炸;循环神经网络进阶
Task03: 过拟合、欠拟合及其解决方案;梯度消失、梯度爆炸;循环神经网络进阶过拟合、欠拟合及其解决方案;梯度消失、梯度爆炸;循环神经网络进阶
目录目录
Task03: 过拟合、欠拟合及其解决方案;梯度消失、梯度爆炸;循环神经网络进阶过拟合、欠拟合及其解决方案;梯度消失、梯度爆炸;循环神经网络进阶
1、过拟合、欠拟合及其解决方案、过拟合、欠拟合及其解决方案
1.1 训练误差和泛化误差训练误差和泛化误差
1.2 模型选择模型选择
1.3 过拟合和欠拟合过拟合和欠拟合
1.4 权重衰减权重衰减
1.5 丢弃法丢弃法
2、梯度消失、梯度爆炸、梯度消失、梯度爆炸
2.1 定义定义
2.2 随机初始化模型参数随机初始化模型参数
2.3 考虑环境因素考虑环境因素
3、循环神经网络进阶、循环神经网络进阶
3.1 门控循环单位(门控循环单位(GRU))
3.2 长短期记忆(长短期记忆(LSTM))
3.3 深度循环神经网络深度循环神经网络
3.4 双向循环神经网络双向循环神经网络
1、过拟合、欠拟合及其解决方案、过拟合、欠拟合及其解决方案
1.1 训练误差和泛化误差训练误差和泛化误差
训练误差(训练误差(training error):):模型在训练数据集上表现出的误差
泛化误差(泛化误差(generalization error):):模型在任意一个测试数据样本上表现出的误差的期望,常常通过测试数据集上的误差来
近似。
计算训练误差和泛化误差可以使用之前介绍过的损失函数,例如线性回归用到的平方损失函数和softmax回归用到的交叉熵损
失函数。
机器学习模型应关注降低泛化误差。
1.2 模型选择模型选择
验证数据集验证数据集
从严格意义上讲,测试集只能在所有超参数和模型参数选定后使用一次。不可以使用测试数据选择模型,如调参。由于无法从
训练误差估计泛化误差,因此也不应只依赖训练数据选择模型。鉴于此,我们可以预留一部分在训练数据集和测试数据集以外
的数据来进行模型选择。这部分数据被称为验证数据集,简称验证集(validation set)。例如,我们可以从给定的训练集中随
机选取一小部分作为验证集,而将剩余部分作为真正的训练集。
K折交叉验证折交叉验证
由于验证数据集不参与模型训练,当训练数据不够用时,预留大量的验证数据显得太奢侈。一种改善的方法是K折交叉验证
(K-fold cross-validation)。在K折交叉验证中,我们把原始训练数据集分割成K个不重合的子数据集,然后我们做K次模型训
练和验证。每一次,我们使用一个子数据集验证模型,并使用其他K-1个子数据集来训练模型。在这K次训练和验证中,每次
用来验证模型的子数据集都不同。最后,我们对这K次训练误差和验证误差分别求平均。

1.3 过拟合和欠拟合过拟合和欠拟合
模型训练中经常出现的两类典型问题:
一类是模型无法得到较低的训练误差,我们将这一现象称作
欠拟合(欠拟合(
underfitting
))
;
另一类是模型的训练误差远小于它在测试数据集上的误差,我们称该现象为
过拟合(过拟合(
overfitting
))
。 在实践中,我们要尽可
能同时应对欠拟合和过拟合。虽然有很多因素可能导致这两种拟合问题,在这里我们重点讨论两个因素:模型复杂度和训练数
据集大小。
模型复杂度模型复杂度
为了解释模型复杂度,我们以多项式函数拟合为例。给定一个由标量数据特征x和对应的标量标签y组成的训练数据集,多项式
函数拟合的目标是找一个K阶多项式函数:
来近似 y。在上式中,wk是模型的权重参数,b是偏差参数。与线性回归相同,多项式函数拟合也使用平方损失函数。特别
地,一阶多项式函数拟合又叫线性函数拟合。
给定训练数据集,模型复杂度和误差之间的关系:
训练数据集的大小训练数据集的大小
影响欠拟合和过拟合的另一个重要因素是训练数据集的大小。一般来说,如果训练数据集中样本数过少,特别是比模型参数数
量(按元素计)更少时,过拟合更容易发生。此外,泛化误差不会随训练数据集里样本数量增加而增大。因此,在计算资源允
许的范围之内,我们通常希望训练数据集大一些,特别是在模型复杂度较高时,例如层数较多的深度学习模型。
1.4 权重衰减权重衰减
权重衰减等价于 L2范数正则化(regularization)。正则化通过为模型损失函数添加惩罚项使学出的模型参数值较小,
是应对是应对
过拟合的常用手段。过拟合的常用手段。
L2 范数正则化(范数正则化(regularization):):
L2范数正则化在模型原损失函数基础上添加L2范数惩罚项,从而得到训练所需要最小化的函数。L2范数惩罚项指的是模型权
重参数每个元素的平方和与一个正的常数的乘积。以线性回归中的线性回归损失函数为例
其中w1,w2是权重参数,b是偏差参数,样本i的输入为x1(i),x2(i),标签为y(i),样本数为n。将权重参数用向量w=[w1,w2]表
示,带有L2范数惩罚项的新损失函数为:
其中超参数λ>0。当权重参数均为0时,惩罚项最小。当λ较大时,惩罚项在损失函数中的比重较大,这通常会使学到的权重参
数的元素较接近0。当λλ设为0时,惩罚项完全不起作用。上式中L2范数平方|w|2展开后得到w12+w22。 有了L2范数惩罚项
后,在小批量随机梯度下降中,我们将线性回归一节中权重w1和w2的迭代方式更改为:
可见,L2范数正则化令权重w1和w2先自乘小于1的数,再减去不含惩罚项的梯度。因此,L2范数正则化又叫权重衰减。权重

衰减通过惩罚绝对值较大的模型参数为需要学习的模型增加了限制,这可能对过拟合有效对过拟合有效。
pytorch简洁实现:简洁实现:
# wd为正则化的超参数
def fit_and_plot_pytorch(wd):
# 对权重参数衰减。权重名称一般是以weight结尾
net = nn.Linear(num_inputs, 1)
#初始化参数
nn.init.normal_(net.weight, mean=0, std=1)
nn.init.normal_(net.bias, mean=0, std=1)
#使用随机梯度下降
optimizer_w = torch.optim.SGD(params=[net.weight], lr=lr, weight_decay=wd) # 对权重参数衰减
optimizer_b = torch.optim.SGD(params=[net.bias], lr=lr) # 不对偏差参数衰减
train_ls, test_ls = [], [] for _ in range(num_epochs):
for X, y in train_iter:
l = loss(net(X), y).mean()
optimizer_w.zero_grad()
optimizer_b.zero_grad()
l.backward()
# 对两个optimizer实例分别调用step函数,从而分别更新权重和偏差
optimizer_w.step()
optimizer_b.step()
train_ls.append(loss(net(train_features), train_labels).mean().item())
test_ls.append(loss(net(test_features), test_labels).mean().item())
d2l.semilogy(range(1, num_epochs + 1), train_ls, 'epochs', 'loss',
range(1, num_epochs + 1), test_ls, ['train', 'test'])
print('L2 norm of w:', net.weight.data.norm().item())
不进行权重衰减:出现过拟合的现象
fit_and_plot_pytorch(0)
进行权重衰减:
fit_and_plot_pytorch(3)
剩余14页未读,继续阅读
资源评论


weixin_38575536
- 粉丝: 3
上传资源 快速赚钱
我的内容管理 展开
我的资源 快来上传第一个资源
我的收益
登录查看自己的收益我的积分 登录查看自己的积分
我的C币 登录后查看C币余额
我的收藏
我的下载
下载帮助


最新资源
- 大数据背景下计算机信息处理技术的探讨.docx
- 人工智能在信息检索中应用技术模式.doc
- 基于单片机的波形发生器方案设计书.doc
- 计算机网络信息安全技术的运用实践分析.docx
- 计算机网络考研笔记.docx
- 人工神经网络应用于海洋领域的文献综述-海洋环境监测.docx
- C单片机智能小车设计方案.doc
- 宽松货币政策对互联网企业融资约束的影响.docx
- 川省安全知识网络竞赛答题分.doc
- 人工智能在城市公共安全领域的应用及发展研究.docx
- 移动互联网+农产品电商全产业链解决方案.doc
- 项目管理的组织理论.doc
- 视频网站网络设计方案.doc
- snmp简单网络管理协议漏洞分析.doc
- 网络文化背景下汉语言的变异探析.docx
- 计算机科学与技术专业布局与结构探索.docx
资源上传下载、课程学习等过程中有任何疑问或建议,欢迎提出宝贵意见哦~我们会及时处理!
点击此处反馈



安全验证
文档复制为VIP权益,开通VIP直接复制
