文 | 傅一平
源 | 与数据同行
无论是金融、互联网企业亦或运营商,都在基于多年积累的大数据搭建个人征信评分体系,不仅用于自身,也在提供给其他征信机构做为个人信用评估标准。
那么,个人的信用分到底是如何计算出来的呢?
笔者相信不同的信用分有不同的计算方法,无论是FICO评分、芝麻信用亦或其它信用分,这些评分既可以很简单,也可以很复杂,使用的建模方法各不同,但也总是会遵循一些基本的原则,这里笔者就信用分计算的一些关键技术作简要介绍,希望于你有益。
一、业务分析
我们在构建信用评分的时候,首先当然要定义何谓信用高,何谓信用低的用户,这是建模的起点,银行会基于用户的还贷历史来确定高低信用用户,但如果是第三方企业,则需要基于自身的业务特点定义出类似的高低信用用户,即正负样本,比如运营商可能会基于通信欠费来确定高低信用用户的样本,当然这也是远远不够的,需要从更多的途径获取,比如可以免费获取法院公示的老赖名单等。
二、变量初选
身份特征、消费能力、信用历史、行为偏好及人脉关系是当前业界评估信用的五个方面,很多信用评分体系都基于此而来,当然,不同行业由于数据不同,因此形成的具体明细指标肯定也有明显的差异,比如针对身份特征,可能选择的具体指标包括婚姻、年龄、职业、性别等等,诸如运营商可以有几十个指标来表征身份特征,五个方面的涉及的具体指标更是多达上百个,因此,关键的下一步就是如何删选合适的变量。
三、特征删选
很多新手喜欢用越多的变量来建模,以为多多益善,其实不然,变量筛选的目在于去除对于模型预测准确提升无效甚至影响模型预测效果的无用变量, 比如两个相关变量的同时存在往往会导致准确性下降。
特征的选择有很多方式,比如IV值的判断,这里以随机森林来示例,随机森林算法能够输出每个变量对模型预测的重要性大小,重要性越大代表该变量对于提升模型预测准确度所做贡献就越大,反之如果重要度值为负,就代表该变量加入会降低模型预测准确度,所以在该步骤直接选择基于模型输出结果来完成变量筛选,以下是示例:
<