XGBoost预测客户流失：含公式推导与完整代码实现

最新推荐文章于 2025-08-13 23:25:51 发布

杰森AST

最新推荐文章于 2025-08-13 23:25:51 发布

阅读量798

点赞数 23

CC 4.0 BY-SA版权

文章标签：深度学习机器学习人工智能回归 python 数据分析

本文链接：https://blog.csdn.net/u010257409/article/details/149649674

今天咱们深入探讨如何用XGBoost模型预测客户流失风险。内容涵盖算法核心公式推导、实战代码及关键技巧，确保从理论到实践都清晰易懂。

一、XGBoost核心原理与公式推导

XGBoost（极端梯度提升）是基于梯度提升树（GBDT）的改进算法，其核心是通过迭代生成弱分类器（决策树）并累加结果，最终形成强分类器。以下是关键公式推导：

1. 模型构建逻辑

设数据集为 $D = \{(x_i, y_i)\}$ （ $x_i$ 为特征向量， $y_i$ 为目标变量），第 $t$ 轮的预测模型为：
$y^i(t)=y^i(t−1)+ft(xi)\hat{y}_i^{(t)} = \hat{y}_i^{(t-1)} + f_t(x_i)$
其中 $y^i(t−1)\hat{y}_i^{(t-1)}$ 是前 $t - 1$ 轮的累加预测结果， $f_t(x_i)$ 是第 $t$ 棵决策树的预测值。

2. 目标函数定义

每轮训练的目标是最小化损失函数与正则化项的总和：
$L(t)=∑i=1nl(yi,y^i(t−1)+ft(xi))+Ω(ft)\mathcal{L}^{(t)} = \sum_{i=1}^n l(y_i, \hat{y}_i^{(t-1)} + f_t(x_i)) + \Omega(f_t)$

损失函数 ( l(\cdot) )：衡量预测误差（如分类问题用对数损失）
正则化项 ( \Omega(f_t) )：控制树的复杂度，避免过拟合：
$Ω(ft)=γT+12λ∑j=1Twj2\Omega(f_t) = \gamma T + \frac{1}{2}\lambda \sum_{j=1}^T w_j^2$
其中 $T$ 为叶节点数量， $w_j$ 为第 $j$ 个叶节点的权重， $γ、λ\gamma、\lambda$ 为正则化参数。

3. 损失函数的二阶泰勒近似

为简化优化过程，对损失函数做二阶泰勒展开：
$l(yi,y^i(t−1)+ft(xi))≈l(yi,y^i(t−1))+gift(xi)+12hift2(xi)l(y_i, \hat{y}_i^{(t-1)} + f_t(x_i)) \approx l(y_i, \hat{y}_i^{(t-1)}) + g_i f_t(x_i) + \frac{1}{2} h_i f_t^2(x_i)$
其中：

一阶导数 $gi=∂l(yi,y^i(t−1))∂y^i(t−1)g_i = \frac{\partial l(y_i, \hat{y}_i^{(t-1)})}{\partial \hat{y}_i^{(t-1)}}$
二阶导数 $hi=∂2l(yi,y^i(t−1))∂(y^i(t−1))2h_i = \frac{\partial^2 l(y_i, \hat{y}_i^{(t-1)})}{\partial (\hat{y}_i^{(t-1)})^2}$

忽略常数项后，目标函数简化为：
$L(t)≈∑i=1n(gift(xi)+12hift2(xi))+Ω(ft)\mathcal{L}^{(t)} \approx \sum_{i=1}^n \left( g_i f_t(x_i) + \frac{1}{2} h_i f_t^2(x_i) \right) + \Omega(f_t)$

4. 叶节点最优权重与分裂增益

对于某个叶节点 $j$ ，包含样本集合 $I_j$ ，其最优权重为：
$wj∗=−∑i∈Ijgi∑i∈Ijhi+λw_j^* = -\frac{\sum_{i \in I_j} g_i}{\sum_{i \in I_j} h_i + \lambda}$
决策树分裂时，某特征分裂的增益计算公式为：
$Gain=12((∑gL)2∑hL+λ+(∑gR)2∑hR+λ−(∑gL+∑gR)2∑hL+∑hR+λ)−γ\text{Gain} = \frac{1}{2} \left( \frac{(\sum g_L)^2}{\sum h_L + \lambda} + \frac{(\sum g_R)^2}{\sum h_R + \lambda} - \frac{(\sum g_L + \sum g_R)^2}{\sum h_L + \sum h_R + \lambda} \right) - \gamma$
其中 $g_L、h_L$ 为左子树样本的一阶/二阶导数和， $g_R、h_R$ 为右子树对应值。

二、客户流失预测关键注意事项

类别不平衡处理
流失客户占比通常较低（如<20%），需采用：
- 过采样：SMOTE算法生成少数类（流失客户）合成样本
- 欠采样：减少多数类（非流失客户）样本数量
- 加权损失：在模型中设置 scale_pos_weight 调整类别权重
核心特征工程
- 行为特征：消费频率、服务使用时长、投诉次数
- 时间特征：最近一次消费距今天数（RFM模型中的"R"）、平均消费间隔
- 衍生特征：客户生命周期价值（LTV）、月消费波动率
模型评价指标
- 优先关注 Recall（召回率）：确保尽可能多的流失客户被识别（减少漏报）
- 辅助指标：AUC-ROC（模型区分能力）、F1分数（平衡精准率与召回率）

三、完整代码实现

1. 导入库与数据准备

import numpy as np
import pandas as pd
import matplotlib.pyplot as plt
import seaborn as sns
from sklearn.model_selection import train_test_split
from sklearn.metrics import classification_report, roc_auc_score, roc_curve
from xgboost import XGBClassifier
from imblearn.over_sampling import SMOTE  # 处理类别不平衡

# 生成模拟数据集（客户信息+行为数据）
np.random.seed(42)
n_samples = 2000
data = pd.DataFrame({
    # 基本特征
    'CustomerID': np.arange(n_samples),
    'Age': np.random.randint(18, 70, size=n_samples),  # 年龄
    'Tenure': np.random.randint(1, 61, size=n_samples),  # 在网月数（1-60个月）
    # 行为特征
    'MonthlyCharges': np.random.uniform(30, 200, size=n_samples),  # 月消费（30-200元）
    'ServiceCalls': np.random.randint(0, 10, size=n_samples),  # 客服呼叫次数
    # 合同特征（分类变量）
    'ContractType': np.random.choice(
        ['Prepaid', 'Monthly', 'Annual'], 
        n_samples, 
        p=[0.2, 0.6, 0.2]  #  prepaid（预付费）、monthly（月付）、annual（年付）
    ),
    # 目标变量（流失标签：1=流失，0=留存）
    'Churn': np.random.choice([0, 1], n_samples, p=[0.85, 0.15])  # 流失率15%
})

# 分类变量编码（独热编码）
data = pd.get_dummies(data, columns=['ContractType'], drop_first=True)

# 特征与目标变量拆分
X = data.drop(columns=['CustomerID', 'Churn'])  # 特征矩阵
y = data['Churn']  # 目标变量

2. 处理类别不平衡与数据集拆分

# 使用SMOTE过采样平衡类别
smote = SMOTE(random_state=42)
X_resampled, y_resampled = smote.fit_resample(X, y)

# 划分训练集（70%）与测试集（30%）
X_train, X_test, y_train, y_test = train_test_split(
    X_resampled, y_resampled,
    test_size=0.3,
    random_state=42
)

3. 模型训练与预测

# 初始化XGBoost模型（含调参示例）
model = XGBClassifier(
    n_estimators=100,  # 树的数量
    max_depth=4,  # 树深度（控制复杂度）
    learning_rate=0.1,  # 学习率
    scale_pos_weight=sum(y==0)/sum(y==1),  # 类别权重（自动计算正负样本比例）
    random_state=42,
    use_label_encoder=False,
    eval_metric='logloss'  # 评估指标
)

# 训练模型
model.fit(X_train, y_train)

# 预测结果
y_pred = model.predict(X_test)  # 类别预测（0/1）
y_pred_proba = model.predict_proba(X_test)[:, 1]  # 流失概率预测（取第2列）

4. 模型评估与可视化

# 打印评估指标
print("=== 模型分类报告 ===")
print(classification_report(y_test, y_pred))

# 计算AUC值
auc = roc_auc_score(y_test, y_pred_proba)
print(f"AUC-ROC值：{auc:.4f}")  # 越接近1，模型区分能力越强

# 1. 流失分布可视化
plt.figure(figsize=(8, 5))
sns.countplot(x=data['Churn'], palette='Set2')
plt.title('客户流失分布（原始数据）', fontsize=12)
plt.xlabel('流失状态（0=留存，1=流失）')
plt.ylabel('客户数量')
plt.show()

# 2. 特征重要性可视化
plt.figure(figsize=(10, 6))
feature_importance = pd.Series(model.feature_importances_, index=X.columns)
feature_importance.sort_values().plot(kind='barh', color='teal')
plt.title('特征重要性排名', fontsize=12)
plt.xlabel('重要性得分')
plt.show()

# 3. ROC曲线可视化
plt.figure(figsize=(8, 5))
fpr, tpr, _ = roc_curve(y_test, y_pred_proba)
plt.plot(fpr, tpr, color='darkorange', lw=2, label=f'ROC曲线 (AUC = {auc:.4f})')
plt.plot([0, 1], [0, 1], color='gray', lw=2, linestyle='--')  # 随机猜测基准线
plt.xlabel('假阳性率（FPR）')
plt.ylabel('真阳性率（TPR）')
plt.title('ROC曲线', fontsize=12)
plt.legend()
plt.show()

在这里插入图片描述

四、模型优化方向

超参数调优
使用网格搜索（GridSearchCV）优化关键参数：

from sklearn.model_selection import GridSearchCV
param_grid = {
    'max_depth': [3, 4, 5],
    'learning_rate': [0.01, 0.1, 0.2],
    'n_estimators': [50, 100, 200]
}
grid_search = GridSearchCV(model, param_grid, cv=5, scoring='recall')
grid_search.fit(X_train, y_train)
print("最优参数：", grid_search.best_params_)