一.bagging
bagging的基本步骤为:
a.用bootstrap抽样方法获得n个子训练集
b.用每个子训练集独立训练一个基学习器(通常是决策树或神经网络)
c.将测试样本放入每个基学习器中获得预测结果
d.对预测结果进行多数投票
随机森林就是一个有随机选择特征的基学习器都是决策树的bagging分类器
bagging的特点是可以降低方差,来避免过拟合
二.boosting
1.基本boosting
boosting的基本步骤:
a.从训练集中以无放回抽样方式随机抽取一个训练子集,用于弱学习机C1的训练
b.从训练集中以无放回抽样方式随机抽取第2个训练子集,并将C1中误分类样本的50% 加入到训练集中,训练得到弱学习机C2
c.从训练集中抽取C1和C2分类结果不一致的样本生成训练样本集d3,以此训练第3个弱学习机C3
d.通过多数投票组合三个弱学习机C1、C2和C3
boosting的特点是擅长降低偏差,但对异常值很敏感
2.Adaboost
Adaboost的基本步骤:
a.对训练集赋予相同的权重w,其中=1
b.用加权的训练集训练一个弱学习机
c.预测测试集样本类标
d.计算权重错误率
e.计算相关系数
f.更新权重
g.归一化权重,使权重和为1
h.重复b~g步多次,用每轮获得的弱学习机对样本进行预测,并进行多数投票
更新权重简单说,就是将预测错的样本增加权重,将预测错的减小权重,使得下次预测时,对这些难预测的样本正确划分的几率变高