数据分享|WEKA信贷违约预测报告:用决策树、随机森林、支持向量机SVM、朴素贝叶斯、逻辑回归...

本文基于WEKA工具,使用决策树、随机森林、支持向量机SVM和逻辑回归等算法预测P2P信贷用户的违约风险。通过数据预处理、特征选择和模型优化,分析了不同算法的预测性能,并展示了如何通过成本敏感学习调整模型以优化ROI。结果显示,随机森林和SVM在预测效果上表现较好。

完整报告链接:http://tecdat.cn/?p=28579

作者:Nuo Liu

数据变得越来越重要,其核心应用“预测”也成为互联网行业以及产业变革的重要力量。近年来网络 P2P借贷发展形势迅猛,一方面普通用户可以更加灵活、便快捷地获得中小额度的贷款,另一方面由于相当多数量用户出现违约问题而给 P2P信贷平台以及借贷双方带来诸多纠纷,因此根据用户历史款情况准确预测潜在是否还会发生违约就非常有必要点击文末“阅读原文”获取完整报告数据

相关视频

解决方案

任务/目标

对于用户贷款数据查看文末了解数据免费获取方式是否违约的预测,结果解释。

数据源准备

删除属性

删除数据集中与建立决策树无关的属性IDX、Listinginfo,此类属性作为用户标记/日期标记作用,与借款人信贷违约明显无关。

删除数据集中distinct为1的属性webloginfo\_10、Education\_info7、webloginfo_49,此类属性仅存在同一个数值,对分类结果无影响。

dba5713fb3d27135b603120c550b1b6f.png

webloginfo_10属性描述,其他属性类似

缺失值处理

缺失值情况如下表,按缺失值比例由大到小排列

10f54b6153ad2c086676156ad5678f0d.png

对于属性webloginfo\_3、webloginfo\_1,由于缺失值比例过大,直接删除两属性。操作步骤为预处理界面勾选两属性,点击Remove。

9203bbbff85ac6fef8b157a5379612f0.png

对于属性Userinfo\_21、Userinfo\_22、Userinfo\_23、Education\_info8、webloginfo\_23-48、Userinfo\_4,由于缺失值比例较小,不足1%。webloginfo\_2、webloginfo\_4、webloginfo\_5、webloginfo\_6缺失值比例为5%。因此直接删除缺失值对应instance,以删除Userinfo_21中的缺失值为例,操作步骤如下:

e603ed07c5dd494905ffce6b03114766.png

删除后,剩余19200条实例如下,数据集损失的实例数不足5%,认为对后续决策树建立没有影响。

3688d39483220c05bb9006ef9ada0777.png

对于其他缺失值属性,若为Numeric属性,用平均值代替缺失值,若为Nominal属性,用它的众数来代替缺失值。选择 weka中“ReplaceMissingValues"过滤器进行实现

785237de4a41c6cda361456dc948b623.png

处理后检查不存在缺失值,至此缺失值处理完成。

Numeric 属性离散化处理

使用“NumerictoNominal”过滤器实现Numeric属性的离散化,为方便处理使用MultiFilter对所有Numeric属性进行操作。

fc086dc492db05260fa47e175bd0b913.png

处理后如图,所有Numeric属性均已变为Nominal属性。

特征转换

特征理解

该数据集数据来源于中国一家著名的P2P公司的借款记录。数据集中包括借款人的ID、日期、借款人特征(地点、婚姻状态等信息)、网络行为、学历以及第三方数据等全面信息。

Weblog Info_:Info网络行为字段描述使用网络次数多少,:使用第三方数据时间N字段描述第三方数据时间长短。观察发现ThirdParty_ Info\_PeriodN\_属性数据不同维度上的特征的尺度不一致,需要进行标准化处理

dc9a8815b8c1624bdeefcad29bfb9b75.png

特征提升

按照第一次方法,对数据集进行缺失值删补,步骤省略。

将ThirdParty字段属性标准化,在预处理界面选用unsupervised. attribute. Standardize,标准化给定数据集中所有数值属性的值到一个0均值和单位方差的正态分布。

1673e286be60c7c44d712ba608c01a95.png

特征选择

原数据集包含属性较多,为方便后续操作先对数据集进行特征选择处理。

删除数据集中与建立决策树无关的属性IDX、Listinginfo,此类属性作为用户标记/日期标记作用,与借款人信贷违约明显无关。删除数据集中distinct为1的属性webloginfo\_10、Education\_info7、webloginfo_49,此类属性仅存在同一个数值,对分类结果无影响。

在预处理界面选择AttributeSelection过滤器,选择CfsSubsetEval评估器,选择BestFirst 搜索方法。最终得到除target之外

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值