如何解决过拟合与欠拟合,及理解k折交叉验证

文章介绍了如何处理机器学习中的欠拟合和过拟合问题。对于欠拟合,可以通过添加特征项、多项式特征和减少正则化系数来改善;而过拟合的解决方案包括数据清洗、增加样本量、增大正则项、使用dropout方法以及特征选择。此外,k折交叉验证被提出作为评估模型泛化能力的有效方法,确保训练集和测试集的均匀取样以获得更准确的模型性能估计。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >


模型欠拟合:在训练集以及测试集上同时具有较⾼的误差,此时模型的偏差较⼤;

模型过拟合:在训练集上具有较低的误差,在测试集上具有较⾼的误差,此时模型的⽅差较⼤。

在这里插入图片描述

如何解决⽋拟合:

  1. 添加其他特征项。组合、泛化、相关性、上下⽂特征、平台特征等特征是特征添加的重要⼿段,有时候特征项不够会导致模型⽋拟合。
  2. 添加多项式特征。例如将线性模型添加⼆次项或三次项使模型泛化能⼒更强。增加了⼆阶多项式,保证了模型⼀定的拟合程度。
  3. 可以增加模型的复杂程度。
  4. 减⼩正则化系数。正则化的⽬的是⽤来防⽌过拟合的,但是现在模型出现了⽋拟合,则需要减少正则化参数。

如何解决过拟合:

  1. 重新清洗数据,数据不纯会导致过拟合,此类情况需要重新清洗数据。
  2. 增加训练样本数量。
  3. 降低模型复杂程度。
  4. 增⼤正则项系数。
  5. 采⽤dropout⽅法,dropout⽅法,通俗的讲就是在训练的时候让神经元以⼀定的概率不⼯作。
  6. 减少迭代次数。
  7. 增⼤学习率。
  8. 添加噪声数据。
  9. 树结构中,可以对树进⾏剪枝。
  10. 减少特征项。

k折交叉验证

  1. 将含有N个样本的数据集,分成K份,每份含有N/K个样本。选择其中1份作为测试集,另外K-1份作为训练集,测试集就有K种情况。
  2. 在每种情况中,⽤训练集训练模型,⽤测试集测试模型,计算模型的泛化误差。
  3. 交叉验证重复K次,每份验证⼀次,平均K次的结果或者使⽤其它结合⽅式,最终得到⼀个单⼀估测,得到模型最终的泛化误差。
  4. 将K种情况下,模型的泛化误差取均值,得到模型最终的泛化误差。
  5. ⼀般 。 k折交叉验证的优势在于,同时重复运⽤随机产⽣的⼦样本进⾏训练和验证,每次的结果验证⼀次,10折交叉验证是最常⽤的。
  6. 训练集中样本数量要⾜够多,⼀般⾄少⼤于总样本数的50%。
  7. 训练集和测试集必须从完整的数据集中均匀取样。均匀取样的⽬的是希望减少训练集、测试集与原数据集之间的偏差。当样本数量⾜够多时,通过随机取样,便可以实现均匀取样的效果。
评论 2
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

1 + 1=王

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值