（十）集成学习中——GBDT

ArriettyYun

已于 2022-09-23 17:27:35 修改

阅读量430

点赞数

CC 4.0 BY-SA版权

分类专栏：集成学习

于 2021-04-21 15:25:40 首次发布

本文链接：https://blog.csdn.net/youyoufengyuhan/article/details/115956788

本文深入探讨了集成学习的基础概念，包括加法模型、前向分步算法以及Adaboost算法。接着，重点介绍了梯度提升决策树（GBDT），它是一种基于残差学习和负梯度的提升方法。GBDT通过迭代优化损失函数，构建一系列决策树以提升模型性能。最后，讨论了GBDT在sklearn库中的应用，并展示了如何配置和评估模型。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

参考：DataWhale教程链接

集成学习（上）所有Task：

（一）集成学习上——机器学习三大任务

（二）集成学习上——回归模型

（三）集成学习上——偏差与方差

（四）集成学习上——回归模型评估与超参数调优

（五）集成学习上——分类模型

（六）集成学习上——分类模型评估与超参数调优

（七）集成学习中——投票法

（八）集成学习中——bagging

（九）集成学习中——Boosting简介&AdaBoost

（十）集成学习中——GBDT

（十一）集成学习中——XgBoost、LightGBM

（十二）集成学习（下）——Blending

（十三）集成学习（下）——Stacking

（十四）集成学习（下）——幸福感预测

（十五）集成学习（下）——蒸汽量预测

文章目录

4. 前向分步算法

我对前向分布算法的理解：

Adaboost是每次学习一个分类器以及该分类器的参数，基于前一个分类器的效果调整下一次分类器输入样本的权重。

加法模型

回看Adaboost的算法内容，我们需要通过计算M个基本分类器，每个分类器的错误率、样本权重以及模型权重。我们可以认为：Adaboost每次学习单一分类器以及单一分类器的参数(权重)。接下来，我们抽象出Adaboost算法的整体框架逻辑，构建集成学习的一个非常重要的框架----前向分步算法，有了这个框架，我们不仅可以解决分类问题，也可以解决回归问题。

(1) 加法模型：

在Adaboost模型中，我们把每个基本分类器合成一个复杂分类器的方法是每个基本分类器的加权和，即： $f(x)=\sum_{m=1}^{M} \beta_{m} b\left(x ; \gamma_{m}\right)$ ，其中， $b\left(x ; \gamma_{m}\right)$ 为基本分类器， $\gamma_{m}$ 为基本分类器的参数， $\beta_m$ 为基本分类器的权重

其中 $\sum_{m=1}^{M} \beta_{m}=1$

在给定训练数据以及损失函数 $L (y, f (x))$ 的条件下，学习加法模型 $f (x)$ 就是：
$\min _{\beta_{m}, \gamma_{m}} \sum_{i=1}^{N} L\left(y_{i}, \sum_{m=1}^{M} \beta_{m} b\left(x_{i} ; \gamma_{m}\right)\right)$
通常这是一个复杂的优化问题，很难通过简单的凸优化的相关知识进行解决。前向分步算法可以用来求解这种方式的问题.

前向分布算法的基本思路是：**因为学习的是加法模型，如果从前向后，每一步只优化一个基函数及其系数，逐步逼近目标函数，那么就可以降低优化的复杂度。**具体而言，每一步只需要优化：
$\min _{\beta, \gamma} \sum_{i=1}^{N} L\left(y_{i}, \beta b\left(x_{i} ; \gamma\right)\right)$
(2) 前向分步算法：
给定数据集 $T=\left\{\left(x_{1}, y_{1}\right),\left(x_{2}, y_{2}\right), \cdots,\left(x_{N}, y_{N}\right)\right\}$ ， $x_{i} \in \mathcal{X} \subseteq \mathbf{R}^{n}$ ， $y_{i} \in \mathcal{Y}=\{+1,-1\}$ 。损失函数 $L (y, f (x))$ ，基函数集合 $\{b(x ; \gamma)\}$ ，我们需要输出加法模型 $f (x)$ 。

初始化： $f_{0}(x)=0$
对m = 1,2,…,M:
- (a) 极小化损失函数：
  $\left(\beta_{m}, \gamma_{m}\right)=\arg \min _{\beta, \ga$