中国统计网|如何用「逻辑回归」构建金融评分卡模型?(下)( 三 )

  • IV值的取值范围是[0,+∞) , 当分箱中只包含好客户或坏客户时 , IV = +∞ , 当分箱中好坏客户比例等于整体好坏客户比例时 , IV为0
  • 2)基于stepwise的变量筛选
    基于基于stepwise的变量筛选方法也是评分卡中变量筛选最常用的方法之一 。 具体包括三种筛选变量的方式:
    • 前向选择forward:逐步将变量一个一个放入模型 , 并计算相应的指标 , 如果指标值符合条件 , 则保留 , 然后再放入下一个变量 , 直到没有符合条件的变量纳入或者所有的变量都可纳入模型
    • 后向选择backward:一开始将所有变量纳入模型 , 然后挨个移除不符合条件的变量 , 持续此过程 , 直到留下所有最优的变量为止
    • 逐步选择stepwise:该算法是向前选择和向后选择的结合 , 逐步放入最优的变量、移除最差的变量
    3)基于特征重要度的变量筛选
    基于特征重要度的变量筛选方法是目前机器学习最热门的方法之一 , 其原理主要是通过随机森林和GBDT等集成模型选取特征的重要度 。
    ①机森林计算特征重要度的步骤:
    中国统计网|如何用「逻辑回归」构建金融评分卡模型?(下)
    本文插图

    当改变样本在该特征的值 , 若袋外数据准确率大幅度下降 , 则该特征对于样本的预测结果有很大影响 , 说明特征的重要度比较高 。
    特征 j 在单颗树中的重要度的如下:
    其中 , L 为树的叶子节点数量 , L-1 为树的非叶子节点数量 , V是和节点 t 相关联的特征 , 特征j的全局重要度为特征j在单颗树中的重要度的平均值:
    其中 , M 是树的数量 。
    4) 基于LASSO正则化的变量筛选
    L1正则化通常称为Lasso正则化 , 它是在代价函数上增加了一个L1范数:
    (2)变量相关性分析
    1)变量两两相关性分析
    中国统计网|如何用「逻辑回归」构建金融评分卡模型?(下)
    本文插图

    两变量间的线性相关性可以利用皮尔森相关系数来衡量 。 系数的取值为[-1.0,1.0] , 相关系数越接近0的说明两变量线性相关性越弱 , 越接近1或-1两变量线性相关性越强 。
    中国统计网|如何用「逻辑回归」构建金融评分卡模型?(下)
    本文插图

    当两变量间的相关系数大于阈值时(一般阈值设为 0.7 或 0.4) , 剔除IV值较低的变量 , 或分箱严重不均衡的变量 。
    2)变量的多重共线性分析
    中国统计网|如何用「逻辑回归」构建金融评分卡模型?(下)
    本文插图

    Q8:为什么要进行相关性分析?
    中国统计网|如何用「逻辑回归」构建金融评分卡模型?(下)
    本文插图

    即使不进行线性相关性分析也不会影响模型的整体性能 , 进行相关性分析只是为了让我们的模型更易于解释 , 保证不同的分箱的得分正确 。
    总结一下变量筛选的意义:
    • 剔除跟目标变量不太相关的特征
    • 消除由于线性相关的变量 , 避免特征冗余
    • 减轻后期验证、部署、监控的负担
    • 保证变量的可解释性
    6.构建逻辑回归模型
    主要包括构建初步的逻辑回归模型 , 根据p-value进行变量筛选 , 根据各个变量的系数符号进行筛选 , 得到最终的逻辑回归模型 。
    以下为几种常用模型的优势和劣势对比:
    中国统计网|如何用「逻辑回归」构建金融评分卡模型?(下)
    本文插图

    由于逻辑回归模型具有简单 , 稳定 , 可解释性强 , 技术成熟和易于检测和部署等优势 , 逻辑回归是评分卡模型最经常使用的算法 。
    (1)根据系数符号进行筛选


    推荐阅读