中国统计网|如何用「逻辑回归」构建金融评分卡模型?(下)


- 点击上方“中国统计网”设置?星标不迷路!-
中国统计网|如何用「逻辑回归」构建金融评分卡模型?(下)
本文插图

评分卡模型的开发
4.3WOE编码
分箱之后我们便得到了一系列的离散变量 , 下面需要对变量进行编码 , 将离散变量转化为连续变量 。 WOE编码是评分卡模型常用的编码方式 。
WOE 称为证据权重(weight of evidence) , 是一种有监督的编码方式 , 将预测类别的集中度的属性作为编码的数值 。 对于自变量第 $i$ 箱的WOE值为:

中国统计网|如何用「逻辑回归」构建金融评分卡模型?(下)
本文插图

公式中的log函数的底一般取为e , 即为ln
从以上公式中我们可以发现 , WOE表示的实际上是“当前分箱中坏客户占所有坏客户的比例”和“当前分箱中好客户占所有好客户的比例”的差异 。
对以上公式做一个简单变换 , 可以得到:
变换以后可以看出 , WOE也可以理解为当前分箱中坏客户和好客户的比值 , 和所有样本中这个比值的差异 (也就是我们随机的坏客户和好客户的比例) 。 WOE越大 , 这种差异越大 , 当前分组里的坏客户的可能性就越大 , WOE越小 , 差异越小 , 这个分组里的样本响应的可能性就越小 。 当分箱中坏客户和好客户的比例等于随机坏客户和好客户的比值时 , 说明这个分箱没有预测能力 , 即WOE=0 。
WOE具体计算过程如下表所示:
中国统计网|如何用「逻辑回归」构建金融评分卡模型?(下)
本文插图

Q5:我们还有没有学过其他编码方式?这里为什么选择采用WOE编码?
我们还学过one-hot编码 。 one-hot 编码会将原始变量中的每个状态都做为作为一个新的特征 , 当原始特征状态较多时 , 数据经过one-hot编码之后特征数量会成倍的增加 , 同时新特征也会变得过于稀疏 。 在进行变量筛选的过程中 , 也会出现原始特征的一部分状态被筛选出来 , 另一部分状态未被筛选出来 , 造成特征的不完整 。
而WOE编码不仅可以解决以上这些问题 , 同时还可以将特征转化为线性 。
我们知道 , 逻辑回归的假设函数为:
其中p为样本为坏客户的概率 , 1-p为样本为好客户的概率 , 整理可得:
其中
我们再来看来看WOE编码的定义:
中国统计网|如何用「逻辑回归」构建金融评分卡模型?(下)
本文插图

实际上WOE编码相当于把分箱后的特征从非线性可分映射到近似线性可分的空间内 。 如下图所示:
中国统计网|如何用「逻辑回归」构建金融评分卡模型?(下)
本文插图

Q6:WOE编码为什么不直接表示为该分箱好坏客户数量之比?
如果直接表示为表示为某个分箱好坏客户数量之比 , 根绝WOE值无法判断不同分箱的预测能力 。 同时WOE值在很大程度上受到好坏客户的影响 , 在严重非均衡的问题中 , 该比值会非常小 , 严重影响woe的值 。
这里我们举个例子 , 假设数据中共有5000个好客户和50个坏客户 , 共有三个分箱 , 箱1的好客户和坏客户分别有1000个和20个 , 箱2好客户和坏客户分别有1000个和10个 , 箱3好客户和坏客户分别有1000个和5个 。
显然 , 箱1和箱3都具有较好的预测能力 , 而箱2因为坏客户比例和随机预测类似 , 因此不具有预测能力 。
用法1:原公式来计算:
中国统计网|如何用「逻辑回归」构建金融评分卡模型?(下)
本文插图

从以上结果我们发现 , 箱2对应的WOE=0 , 说明不具有预测能力 , 而箱1和箱3的WOE分别为log2和-log2 , 均远离0点 , 具有预测能力 。
用法2:利用分箱中好坏客户数量来计算:


推荐阅读