集成学习学习笔记——偏差、方差理论(3)

本文探讨了机器学习中偏差方差理论的重要性,包括模型泛化能力的影响因素、测试误差的估计方法,如AIC、BIC准则及交叉验证,并讨论了模型参数的选择技巧。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

一、偏差方差理论

模型——在测试集上的泛化能力足够强

E(y_0-\hat{f(x_0)})^2=Var(\hat{f(x_0)})+[Bias(\hat{f(x_0)})]^2+Var(\epsilon)

y_0为样本标签,\hat{f(x_0)}为模型对样本的拟合结果,左侧为测试均方误差(即模型泛化能力),右侧第一项为预测结果本身的的方差,第二项为拟合结果与ground truth y间的偏差(L2范数),第三项为样本标签与ground truth之间的噪声偏差(不可约误差)——>建模任务的难度

  • 模型方差:从i.i.d.的数据集中抽样出不同的训练集时,由他们训练得到的模型的差异性就是模型的方差(模型复杂度越高,模型方差越大),度量同一个模型在不同数据集上的稳定性
  • 模型偏差:由于模型复杂度构成的误差(单个模型的学习能力)
  • 偏差方差理论:泛化能力=学习算法的能力+数据的充分性+学习任务本身的难度

二、测试误差的估计

Goal:选择测试误差最小的模型

  • 训练误差修正(间接估计):

        模型越复杂,训练误差减小,测试误差先减后增。因此构建一个特征较多的模型使其过拟合,此时训练误差小,测试误差大,因此加入对特征个数的惩罚项。从而当training error随着特征数减小时,penalty随着特征个数增加而增大。

  1. C_p=\frac{1}{N}(RSS+2d\hat{\sigma}^2),其中d为模型特征个数,RSS=\sum_{i=1}^N(y_i-\hat{f(x_i)})^2\hat{\sigma}^2为模型预测误差的方差的估计值,即残差的方差。
  2. AIC赤池信息量准则:AIC=\frac{1}{d\sigma^2}(RSS+2d\hat{\sigma}^2)
  3. BIC贝叶斯信息量准则:BIC=\frac{1}{n}(RSS+log(n)d\hat{\sigma}^2)
  4. R-Squared:R^2=1-\frac{\sum_{i=1}^{n}(\hat{y_i}-y_i)^2}{\sum_{i=1}^{n}(y_i-\overline{y})}=1-\frac{RSS}{TSS}=\frac{SSR}{TSS}
  5. Adj. R-Squared:R^2_{adj}=1-\frac{\frac{RSS}{n-p-1}}{\frac{TSS}{n-1}}

惩罚强度:BIC最重,AIC最常用

特征选择:

【最优子集选择】【向前逐步选择】

 【压缩估计(正则化)】——Embedd类型

Lasso回归优化(LARS算法)

【PCA压缩 】

Goal:降噪、寻找数据内部本质结构特征

思路:最大投影方差

 

 !!!:PCA也可利用核函数,核函数选择

一般用线性核和高斯核,也就是Linear核与RBF核
需要注意的是需要对数据归一化处理,很多使用者忘了这个小细节
然后一般情况下RBF效果是不会差于Linear
但是时间上RBF会耗费更多,其他同学也解释过了
下面是吴恩达的见解:
1. 如果Feature的数量很大,跟样本数量差不多,这时候选用LR或者是Linear Kernel的SVM
2. 如果Feature的数量比较小,样本数量一般,不算大也不算小,选用SVM+Gaussian Kernel
3. 如果Feature的数量比较小,而样本数量很多,需要手工添加一些feature变成第一种情况

  • 交叉验证(直接估计):
    • 留一法
    • K-Fold

三、模型参数

  • 参数:基于dataset(准确来说,对于training set)对模型需要估计的parameter,例如回归问题中的\omega
  • 超参数:在训练模型前需要对模型确定的数值,例如ridge regression和lasso regression中的正则项参数\lambda,或者是random forest中的树深度、树棵树、learning rate、subsampling rate等。超参数则是在validation set上可以进行选择

超参数调整方法:

1、网格搜索GridSearchCV():对不同超参数的不同取值做笛卡尔积,在validation set上进行遍历

2、随机搜索RandomizedSearchCV():

3、贝叶斯优化:https://www.cnblogs.com/marsggbo/p/9866764.html

评论 2
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值