RandomForestClassifier

本文介绍了RandomForestClassifier的使用,包括重要参数如n_estimators、bootstrap、oob_score等,以及如何设置其他参数如max_depth、min_samples_split等。通过示例演示了如何创建和应用RandomForestClassifier。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

RandomForestClassifier:

from sklearn.ensemble import RandomForestClassifier

RandomForestClassifier(n_estimators=100,bootstrap=True,oob_score=False,n_jobs=1,warm_start=False ,class_weight=None )

重要参数:

n_estimators:决策树的个数,越多越好,但是性能就会越差,至少100左右可以达到可接受的性能和误差率。

bootstrap:是否进行又放回采样。

oob_score:袋外数据,即在某次决策树训练中没有被bootstrap选中的数据。多单个模型的参数训练,我们知道可以用cross validation(cv)来进行,但是特别消耗时间,而且对于随机森林这种情况也没有大的必要,所以就用这个数据对决策树模型进行验证,算是一个简单的交叉验证。性能消耗小,但是效果不错。

n_jobs:并行job个数。这个在ensemble算法中非常重要,尤其是bagging(而非boosting,因为boosting的每次迭代之间有影响,所以很难进行并行化),因为可以并行从而提高性能。n=1不并行;n= n n个并行;n= -1 CPU有多少core,就启动多少job。

warm_start:热启动,决定是否使用上次调用该类的结果。

class_weight:每个类的权重,可以用字典的形式传入{class_label: weight}。如果选择了“balanced”,则输入的权重为n_samples / (n_classes * np.bincount(y))。

其余参数:

criterion:分裂节点所用的标准,可选“gini”, “entropy”,默认“gini”。

max_depth:树的最大深度。如果为None,则将节点展开,直到所有叶子都是纯净的(只有一个类),或者直到所有叶子都包含少于min_samples_split个样本。默认是Non

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值