文章目录 引言 一、极端值的处理 1.极端值(异常值)监测的重要性 2.极端值的处理 3.极端值检测的方式—3σ准则 二、缺失值的处理 1.缺失值的种类 2.缺失值的处理方法 3.连续变量缺失值的处理 4.类别型变量缺失值的处理 三、特殊变量的处理 1.类别变量 2.日期/时间型变量 四、构建流失行为的特征 1.内部数据 2.外部数据 金融评分卡项目—2.银行客户流失预警模型介绍(单因子与多因子分析) 金融评分卡项目—4.GBDT模型在流失预警模型中的应用 金融评分卡项目—5.神经网络模型在银行业客户流失预警模型中的应用—MLP 引言 以下部分完整代码见Github:https://github.com/Libra-1023/data-mining/blob/master/Bank_customer_churn/outlier_missingvalues_date_process.ipynb 一、极端值的处理 极端值又称为离群值,往往会扭曲预测结果会影响模型精度。回归模型中离群值的影响尤其大,使用该模型我们需要先对其进行监测和处理。 1.极端值(异常值)监测的重要性 需要自己判断极端值对建模的影响,并结合实际问题选取处理方法 检测极端值的重要性:由于极端值的存在,模型的估计和预测可能会有很大的偏差和变化 可以选择对极端值不敏感的模型,例如KNN,决策树