环境
Centos 7.5
python 3.12.3
pip 24.0
1、安装xgboost
执行如下命令:
# Pip 21.3 以上
pip install xgboost
2、样本处理
支持多种样本文件格式,对于csv文件:
dtrain = xgb.DMatrix('train.csv?format=csv&label_column=3')
dtest = xgb.DMatrix('test.csv?format=csv&label_column=3')
其中,train.csv是用于训练的样本,test.csv是用于验证的样本
3、训练和验证
完整的训练和验证脚本:
import xgboost as xgb
# label_column 为标签在全部样本中的位置索引
dtrain = xgb.DMatrix('train.csv?format=csv&label_column=3')
dtest = xgb.DMatrix('test.csv?format=csv&label_column=3')
# 配置训练参数
param = {
'max_depth': 12,
'eta': 0.025,
'gamma': 0.05,
'alpha': 0.1,
'lambda': 0.1,
'eval_metric': ['auc','error'],
'nthread': 4,
'objective': 'binary:logistic'
}
evallist = [(dtrain, 'train'), (dtest, 'eval')]
# 树的数量
num_round = 10
bst = xgb.train(param, dtrain, num_round,