中国统计网|如何用「逻辑回归」构建金融评分卡模型?(下)( 二 )
本文插图
然而从法2得到的结果中只能判断三个分箱的坏客户的比例大小情况 , 无法判断箱1 , 箱2和箱3的预测能力 。
总结一下WOE编码的优势:
- 可提升模型的预测效果
- 将自变量规范到同一尺度上
- WOE能反映自变量取值的贡献情况
- 有利于对变量的每个分箱进行评分
- 转化为连续变量之后 , 便于分析变量与变量之间的相关性
- 与独热向量编码相比 , 可以保证变量的完整性 , 同时避免稀疏矩阵和维度灾难
之前我们说到过用户的属性有千千万万个维度 , 而评分卡模型所选用的字段在30个以下 , 那么怎样挑选这些字段呢?
挑选入模变量需要考虑很多因素 , 比如:变量的预测能力 , 变量之间的线性相关性 , 变量的简单性(容易生成和使用) , 变量的强壮性(不容易被绕过) , 变量在业务上的可解释性(被挑战时可以解释的通)等等 。 其中最主要和最直接的衡量标准是变量的预测能力和变量的线性相关性 。 本文主要探讨基于变量预测能力的单变量筛选 , 变量两两相关性分析 , 变量的多重共线性分析 。
(1)单变量筛选
单变量的筛选基于变量预测能力 , 常用方法:
- 基于IV值的变量筛选
- 基于stepwise的变量筛选
- 基于特征重要度的变量筛选:RF, GBDT…
- 基于LASSO正则化的变量筛选
IV称为信息价值(information value) , 是目前评分卡模型中筛选变量最常用的指标之一 , 自变量的IV值越大 , 表示自变量的预测能力越强 。 类似的指标还有信息增益、基尼(gini)系数等 。 常用判断标准如下:
本文插图
那么怎么计算变量中第i个分箱对应的 IV 值的计算公式为:
变量对应的IV值为所有分箱对应的 IV 值之和:
从上式我们可以看出变量的 IV 值实际上式变量各个分箱的加权求和 。 且和决策树中的交叉熵有异曲同工之妙 。 以下为交叉熵公式:
IV值的具体的计算流程如下:
本文插图
Q7:请补全以下表格
自变量为age , Y表示目标变量 , 其中bad代表坏客户 , good代表好客户 。 我们希望能用自变量age来预测好坏客户的概率 , 以此来决定是否放贷 。
本文插图
从以上案例中我们可以分析出:
- 当前分箱中 , 坏客户占比越大 , WOE值越大
- 当前分箱中WOE的正负 , 由当前分箱中好坏客户比例 , 与样本整体好坏客户比例的大小关系决定
- 当分箱的比例小于整体比例时 , WOE为负 。 例如年龄18-30分箱中:250/4750<1000/9000 , 该分箱对应的WOE为负值
- 当分箱的比例大于整体比例时 , WOE为正 。 例如年龄45-55分箱中:250/1200>1000/9000 , 该分箱对应的WOE为正值
- 当分箱的比例等于整体比例时 , WOE为0 。 例如年龄30-45分箱中:300/2700=1000/9000 , 该分箱对应的WOE为0
- WOE的取值范围是[-∞,+∞] , 当分箱中好坏客户比例等于整体好坏客户比例时 , WOE为0
- 对于变量的一个分箱 , 这个分组的好坏客户比例与整体好坏客户比例相差越大 , IV值越大 , 否则 , IV值越小
- 中年|中国-东盟区块链应用创新实验室揭牌
- IT爆料猿|中国电信6月5G用户数净增779万户,累计3784万
- 2020|影谱科技入选“2020中国AI商业落地价值潜力100强榜单”
- 中国航务周刊|港航业再现跨界收购!
- 招生|有道词典与中国教育在线合作,开通“高考招生”直播服务
- CSDN|由 Apache 说开,中国开源项目已经走向世界!
- AI财经社|谷歌云为何“放弃”中国市场?有人为它算了账,投入产出比太低
- 网速|全球网速排名:中国手机网速世界第三,美国第34
- 驱动中国|国内首次应用!支付宝开放宠物鼻纹识别技术:猫狗都能买保险
- 魅族|2020年BrandZ中国全球化品牌50强新鲜出炉,魅族再上榜,位列34名