中国统计网|如何用「逻辑回归」构建金融评分卡模型?(下)( 三 )
基于基于stepwise的变量筛选方法也是评分卡中变量筛选最常用的方法之一 。 具体包括三种筛选变量的方式:
- 前向选择forward:逐步将变量一个一个放入模型 , 并计算相应的指标 , 如果指标值符合条件 , 则保留 , 然后再放入下一个变量 , 直到没有符合条件的变量纳入或者所有的变量都可纳入模型
- 后向选择backward:一开始将所有变量纳入模型 , 然后挨个移除不符合条件的变量 , 持续此过程 , 直到留下所有最优的变量为止
- 逐步选择stepwise:该算法是向前选择和向后选择的结合 , 逐步放入最优的变量、移除最差的变量
基于特征重要度的变量筛选方法是目前机器学习最热门的方法之一 , 其原理主要是通过随机森林和GBDT等集成模型选取特征的重要度 。
①机森林计算特征重要度的步骤:
本文插图
当改变样本在该特征的值 , 若袋外数据准确率大幅度下降 , 则该特征对于样本的预测结果有很大影响 , 说明特征的重要度比较高 。
特征 j 在单颗树中的重要度的如下:
其中 , L 为树的叶子节点数量 , L-1 为树的非叶子节点数量 , V是和节点 t 相关联的特征 , 特征j的全局重要度为特征j在单颗树中的重要度的平均值:
其中 , M 是树的数量 。
4) 基于LASSO正则化的变量筛选
L1正则化通常称为Lasso正则化 , 它是在代价函数上增加了一个L1范数:
(2)变量相关性分析
1)变量两两相关性分析
本文插图
两变量间的线性相关性可以利用皮尔森相关系数来衡量 。 系数的取值为[-1.0,1.0] , 相关系数越接近0的说明两变量线性相关性越弱 , 越接近1或-1两变量线性相关性越强 。
本文插图
当两变量间的相关系数大于阈值时(一般阈值设为 0.7 或 0.4) , 剔除IV值较低的变量 , 或分箱严重不均衡的变量 。
2)变量的多重共线性分析
本文插图
Q8:为什么要进行相关性分析?
本文插图
即使不进行线性相关性分析也不会影响模型的整体性能 , 进行相关性分析只是为了让我们的模型更易于解释 , 保证不同的分箱的得分正确 。
总结一下变量筛选的意义:
- 剔除跟目标变量不太相关的特征
- 消除由于线性相关的变量 , 避免特征冗余
- 减轻后期验证、部署、监控的负担
- 保证变量的可解释性
主要包括构建初步的逻辑回归模型 , 根据p-value进行变量筛选 , 根据各个变量的系数符号进行筛选 , 得到最终的逻辑回归模型 。
以下为几种常用模型的优势和劣势对比:
本文插图
由于逻辑回归模型具有简单 , 稳定 , 可解释性强 , 技术成熟和易于检测和部署等优势 , 逻辑回归是评分卡模型最经常使用的算法 。
(1)根据系数符号进行筛选
推荐阅读
- 中年|中国-东盟区块链应用创新实验室揭牌
- IT爆料猿|中国电信6月5G用户数净增779万户,累计3784万
- 2020|影谱科技入选“2020中国AI商业落地价值潜力100强榜单”
- 中国航务周刊|港航业再现跨界收购!
- 招生|有道词典与中国教育在线合作,开通“高考招生”直播服务
- CSDN|由 Apache 说开,中国开源项目已经走向世界!
- AI财经社|谷歌云为何“放弃”中国市场?有人为它算了账,投入产出比太低
- 网速|全球网速排名:中国手机网速世界第三,美国第34
- 驱动中国|国内首次应用!支付宝开放宠物鼻纹识别技术:猫狗都能买保险
- 魅族|2020年BrandZ中国全球化品牌50强新鲜出炉,魅族再上榜,位列34名