RandomForestClassifier

原创

已于 2022-06-15 10:20:56 修改 · 3.7k 阅读

21 ·

CC 4.0 BY-SA版权

文章标签：

#sklearn #机器学习 #人工智能

于 2022-06-15 10:18:43 首次发布

本文介绍了RandomForestClassifier的使用，包括重要参数如n_estimators、bootstrap、oob_score等，以及如何设置其他参数如max_depth、min_samples_split等。通过示例演示了如何创建和应用RandomForestClassifier。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

RandomForestClassifier：

from sklearn.ensemble import RandomForestClassifier

RandomForestClassifier（n_estimators=100，bootstrap=True，oob_score=False，n_jobs=1，warm_start=False ，class_weight=None ）

重要参数：

n_estimators：决策树的个数，越多越好，但是性能就会越差，至少100左右可以达到可接受的性能和误差率。

bootstrap：是否进行又放回采样。

oob_score：袋外数据，即在某次决策树训练中没有被bootstrap选中的数据。多单个模型的参数训练，我们知道可以用cross validation（cv）来进行，但是特别消耗时间，而且对于随机森林这种情况也没有大的必要，所以就用这个数据对决策树模型进行验证，算是一个简单的交叉验证。性能消耗小，但是效果不错。

n_jobs：并行job个数。这个在ensemble算法中非常重要，尤其是bagging（而非boosting，因为boosting的每次迭代之间有影响，所以很难进行并行化），因为可以并行从而提高性能。n=1不并行；n= n n个并行；n= -1 CPU有多少core，就启动多少job。

warm_start：热启动，决定是否使用上次调用该类的结果。

class_weight：每个类的权重，可以用字典的形式传入{class_label: weight}。如果选择了“balanced”，则输入的权重为n_samples / (n_classes * np.bincount(y))。