神经网络Batch size，Iteration，Epoch的理解

最新推荐文章于 2024-06-03 23:46:31 发布

睡熊猛醒

最新推荐文章于 2024-06-03 23:46:31 发布

阅读量1.1k

点赞数 3

CC 4.0 BY-SA版权

分类专栏：深度学习文章标签：深度学习

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/weixin_41089007/article/details/102543003

本文介绍了深度学习中Batch size、Iteration和Epoch的概念及其相互关系。Batch size影响模型优化和速度，太小可能导致欠拟合，增大则会加快处理速度但增加内存需求。Iteration是一次训练步，Epoch是完整遍历训练集一次，通常使用mini-batch的SGD进行优化。合适的Epoch数量因数据集而异，过多可能导致过拟合。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

Batch size：一次放入模型训练的样本数，batch_size将影响到模型的优化程度和速度。

为什么要有batch size：batch size的正确选择是为了在内存效率和内存容量之间寻找最佳平衡。

相对于正常数据集，如果Batch_Size过小，训练数据就会非常难收敛，从而导致underfitting。

增大Batch_Size，相对处理速度加快，所需内存容量增加（epoch的次数需要增加以达到最好的结果）。

这里我们发现上面两个矛盾的问题，因为当epoch增加以后同样也会导致耗时增加从而速度下降。因此我们需要寻找最好的Batch_Size。

Iteration：表示1次迭代（也叫training step），1个iteration等于使用batch size个样本训练一次，每次迭代更新1次网络结构的参数。

Epoch：1个epoch等于使用训练集中的全部样本训练一次。一般来说，Epoch = Batch size * Iteration，但是，在深度学习领域中，常用带mini-batch的随机梯度下降算法（Stochastic Gradient Descent, SGD）训练深层结构，它有一个好处就是并不需要遍历全部的样本，当数据量非常大时十分有效。此时，可根据实际问题来定义epoch，例如定义1000次迭代为1个epoch，若每次迭代的batch-size设为256，那么1个epoch相当于过了256000个训练样本。

深度学习中为什么要使用多于一个epoch?

因为在神经网络中传递完整的数据集一次是不够的，而且我们需要将完整的数据集在同样的神经网络中传递多次。但请记住，我们使用的是有限的数据集，并且我们使用一个迭代过程即梯度下降来优化学习过程。如下图所示。因此仅仅更新一次或者说使用一个epoch是不够的。

最低0.47元/天解锁文章

200万优质内容无限畅学

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。