中国统计网|如何用「逻辑回归」构建金融评分卡模型?(下)( 二 )


中国统计网|如何用「逻辑回归」构建金融评分卡模型?(下)
本文插图

然而从法2得到的结果中只能判断三个分箱的坏客户的比例大小情况 , 无法判断箱1 , 箱2和箱3的预测能力 。
总结一下WOE编码的优势:

  • 可提升模型的预测效果
  • 将自变量规范到同一尺度上
  • WOE能反映自变量取值的贡献情况
  • 有利于对变量的每个分箱进行评分
  • 转化为连续变量之后 , 便于分析变量与变量之间的相关性
  • 与独热向量编码相比 , 可以保证变量的完整性 , 同时避免稀疏矩阵和维度灾难
5.变量筛选
之前我们说到过用户的属性有千千万万个维度 , 而评分卡模型所选用的字段在30个以下 , 那么怎样挑选这些字段呢?
挑选入模变量需要考虑很多因素 , 比如:变量的预测能力 , 变量之间的线性相关性 , 变量的简单性(容易生成和使用) , 变量的强壮性(不容易被绕过) , 变量在业务上的可解释性(被挑战时可以解释的通)等等 。 其中最主要和最直接的衡量标准是变量的预测能力和变量的线性相关性 。 本文主要探讨基于变量预测能力的单变量筛选 , 变量两两相关性分析 , 变量的多重共线性分析 。
(1)单变量筛选
单变量的筛选基于变量预测能力 , 常用方法:
  • 基于IV值的变量筛选
  • 基于stepwise的变量筛选
  • 基于特征重要度的变量筛选:RF, GBDT…
  • 基于LASSO正则化的变量筛选
1) 基于IV值的变量筛选
IV称为信息价值(information value) , 是目前评分卡模型中筛选变量最常用的指标之一 , 自变量的IV值越大 , 表示自变量的预测能力越强 。 类似的指标还有信息增益、基尼(gini)系数等 。 常用判断标准如下:
中国统计网|如何用「逻辑回归」构建金融评分卡模型?(下)
本文插图

那么怎么计算变量中第i个分箱对应的 IV 值的计算公式为:
变量对应的IV值为所有分箱对应的 IV 值之和:
从上式我们可以看出变量的 IV 值实际上式变量各个分箱的加权求和 。 且和决策树中的交叉熵有异曲同工之妙 。 以下为交叉熵公式:
IV值的具体的计算流程如下:
中国统计网|如何用「逻辑回归」构建金融评分卡模型?(下)
本文插图

Q7:请补全以下表格
自变量为age , Y表示目标变量 , 其中bad代表坏客户 , good代表好客户 。 我们希望能用自变量age来预测好坏客户的概率 , 以此来决定是否放贷 。
中国统计网|如何用「逻辑回归」构建金融评分卡模型?(下)
本文插图

从以上案例中我们可以分析出: