机器学习算法——Adaboost

最新推荐文章于 2025-07-01 18:34:01 发布

原创最新推荐文章于 2025-07-01 18:34:01 发布 · 473 阅读

1 ·

CC 4.0 BY-SA版权

Python 同时被 2 个专栏收录

72 篇文章

订阅专栏

机器学习算法

38 篇文章

订阅专栏

Adaboost算法是一种基于Boosting框架的集成学习方法，通过迭代训练弱分类器并调整样本权重，最终组合成强分类器。适用于二元及多元分类，能有效提升分类精度且不易过拟合。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

前向分布算法

前向分布算法属于加法模型：
$\sum_{m=1}^M\beta_mb(x; \gamma_m)$
$\gamma_m)$ 为基函数，即基分类器， $βm为基函数的系数\beta_m为基函数的系数$ 。

Adaboost算法的基本思路

Adaboost使用的是Boosting算法集成框架，首先从训练集用初始权重训练出一个弱学习器1，根据弱学习的学习误差率表现来更新训练样本的权重，使得之前弱学习器1学习误差率高的训练样本点的权重变高，使得这些误差率高的点在后面的弱学习器2中得到更多的重视。然后基于调整权重后的训练集来训练弱学习器2.，如此重复进行，直到弱学习器数达到事先指定的数目T，最终将这T个弱学习器通过集合策略进行整合，得到最终的强学习器。

输入：训练数据集，弱学习算法，弱分类器迭代次数K
输出：最终分类器

初始化训练数据的权值分布
使用具有权重 $D_k$ 的样本集来训练数据，得到弱分类器 $G_k(x)$
计算分类误差率，找到分类误差率最低的时候的阈值 $v$
计算Gk(x)的分类误差率
计算弱分类器的系数
更新样本集的权重分布
根据阈值 $v$ 在分类
迭代…直到分类器上的误分类点为0
强分类器

AdaBoost二元分类问题算法流程

输入：训练样本集 $T =$ { $(x1,y1),(x2,y2),⋯ ,(xm,ym)(x_1,y_1),(x_2,y_2),\cdots,(x_m,y_m)$ }、弱分类器算法, 弱分类器迭代次数K。
输出：最终的强分类器

初始化训练数据的权值分布 $(w_{11},w_{12},\cdots,w_{1m});w_{1i} = \frac {1}{m};i = 1,2\cdots m$
使用具有权重 $D_k$ 的样本集来训练数据，得到弱分类器 $G_k(x)$
计算分类误差率 $e_k$ ，找到分类误差率最低的时候的阈值 $v$
计算Gk(x)的分类误差率计算Gk(x)的分类误差率 $ek=P(Gk(xi)=/ yi)=∑i=1mwkiI(Gk(xi)=/ yi)e_k = P(G_k(x_i){=}\mathllap{/\,}y_i) = \sum_{i=1}^mw_{ki}I(G_k(x_i){=}\mathllap{/\,}y_i)$
计算弱分类器的系数计算弱分类器的系数 $αk=12log1−ekek\alpha_k = \frac{1}{2}log\frac{1-e_k}{e_k}$
更新样本集的权重分布 $wk+1,i=wkiZKexp(−αkyiGk(xi)),i=1,2,3⋯mw_{k+1,i} = \frac{w_{ki}}{Z_K}exp(-\alpha_ky_iG_k(x_i)) ,i = 1,2,3 \cdots m$
$Zk=∑i=1mwkiexp(−αkyiGk(xi)),ZK为规范化因子Z_k = \sum_{i =1}^mw_{ki}exp(-\alpha_ky_iG_k(x_i)),Z_K为规范化因子$
根据阈值 $v$ 在分类根据阈值 $v$ 在分类
迭代…直到分类器上的误分类点为0
强分类器 $sign(\sum_{k=1}^K\alpha_kG_k(x))$

对于Adaboost多元分类算法，其实原理和二元分类类似，最主要区别在弱分类器的系数上。比如Adaboost SAMME算法，它的弱分类器的系数
$αk=12log1−ekek+log(R−1),其中R为类别数。\alpha_k = \frac{1}{2}log\frac{1-e_k}{e_k}+log(R-1),其中R为类别数。$

Adaboost回归问题的算法流程

这里我们对AdaBoost回归问题算法流程做一个总结。AdaBoost回归算法变种很多，下面的算法为Adaboost R2回归算法过程。

初始化训练数据的权值分布 $(w_{11},w_{12},\cdots,w_{1m});w_{1i} = \frac {1}{m};i = 1,2\cdots m$
使用具有权重 $D_k$ 的样本集来训练数据，得到弱分类器 $G_k(x)$ 使用具有权重 $D_k$ 的样本集来训练数据，得到弱分类器 $G_k(x)$
计算训练集上的最大误差 $Ek=max∣yi−Gk(xi)∣,i=1,2⋯mE_k = max|y_i-G_k(x_i)|,i = 1,2\cdots m$
计算每个样本的相对误差:
a.如果是线性误差，则 $eki=∣yi−Gk(xi)∣Eke_{ki} = \frac{|y_i-G_k(x_i)|}{E_k}$
b.如果是平方误差，则 $eki=(yi−Gk(xi))2Eke_{ki} = \frac{(y_i-G_k(x_i))^2}{E_k}$
c.如果是指数误差，则 $eki=1−exp(−∣yi−Gk(xi)∣Ek)e_{ki} = 1- exp(- \frac{|y_i-G_k(x_i)|}{E_k})$
计算回归误差率 $sk=∑i=1mwkiekis_k = \sum_{i=1}^m w_{ki}e_{ki}$
计算弱学习器的系数 $αk=ek1−ek\alpha_k =\frac{e_k}{1-e_k}$
更新样本集的权重分布为 $wk+1,i=wkiZkαk1−ekiw_{k+1,i}=\frac{w_{ki}}{Z_k}\alpha_k^{1-e_{ki}}$ $Zk=∑i=1mwkiαk1−ekiZ_k = \sum_{i=1}^mw_{ki}\alpha_k^{1-e_{ki}}$
构建最终强学习器为： $f(x) = G_{k^*}(x)$
　其中， $G_{k^*}(x)$ 是所有 $ln1αk,k=1,2,....Kln\frac{1}{\alpha_k},k=1,2,....K$ 的中位数值对应序号 $k^*$ 对应的弱学习器。

Adaboost算法的正则化

为了防止Adaboost过拟合，我们通常也会加入正则化项，这个正则化项我们通常称为步长(learning rate)。定义为 $v$ ,对于前面的弱学习器的迭代
　 $fk(x)=fk−1(x)+αkGk(x)f_k(x) = f_{k-1}(x)+\alpha_kG_k(x)$
　加上了正则化项，则有
　 $fk(x)=fk−1(x)+vαkGk(x),0<ν≤1f_k(x) = f_{k-1}(x)+v\alpha_kG_k(x),0<ν≤1$
对于同样的训练集学习效果，较小的ν意味着我们需要更多的弱学习器的迭代次数。通常我们用步长和迭代最大次数一起来决定算法的拟合效果。