Bagging算法与随机森林

最新推荐文章于 2023-12-26 13:45:59 发布

原创

最新推荐文章于 2023-12-26 13:45:59 发布 · 3.5k 阅读

·

1

·

CC 4.0 BY-SA版权

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文详细介绍了Bagging算法，包括自助采样法、算法描述以及包外估计。此外，还探讨了随机森林作为Bagging的一种扩展，强调了其在决策树训练中的随机属性选择策略，以增强基学习器的多样性，提升泛化性能。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

Bagging算法

一、自助采样法

给定包含m个样本的数据集D，我们对它进行采样产生数据集D’：每次随机从D中挑选一个样本，将其拷贝放入D’，然后再将该样本放回初始数据集D中，使得该样本在下次采样时仍有可能被采样到；这个过程重复执行m次后，我们就得到了包含m个样本的数据集D’，这就是自助采样的结果。

显然有一部分样本会在D‘中出现多次，而另一部分样本不出现。样本在m次采样中始终不被采到的概率是:

lim m \to \infty (1 - 1 m) m = 1 e = 0.368

$\lim_{m \rightarrow \infty} (1- \frac 1 m)^m = \frac 1 e = 0.368$
即通过自助采样法，初始数据集D中约有36.8%的样本未出现在样本数据集D‘中。于是我们可将D’用作训练集，D\D’用作测试集,这种做法简称“包外估计”

二、算法描述

我们可以采样出T个含有m个训练样本的采样集，然后基于每个采样集训练出一个集学习器，在将这些基学习器进行结合。在对预测输出进行结合时，Bagging通常对分类任务使用简单投票法，对回归任务使用简单平均法。若分类预测时出现两个类收到同样票数的情形，则最简单的做法是随机选择一个。

算法描述

输入：训练集D={ (x1,y1),⋯,(x

最低0.47元/天解锁文章

200万优质内容无限畅学

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。