实战 | 客户流失预警研究与应用
过去几年的时间里 , 机器学习与大数据技术日趋成熟 , 在金融领域的应用也日趋增多 , 机器学习与大数据技术的核心在于以数据量和运算提高预测的准确性 , 而目前银行的数据沉淀已到达一定水平 , 客户财务、背景、交易等行为的数据积累越来越丰富 , 还有手机银行、微信银行等客户终端访问行为的数据作为补充 , 在数据源层面已准备充分 。
技术方法介绍在客户流失的领域 , 传统上常用的方法有线性分类、最近邻分类法等 , 但这些方法都有自身的缺陷 , 最主要的问题就是在分类的准确性和计算的效率上 , 因此 , 在初期算法的选择上 , 并没有选用这几种算法进行试验 , 而是选取了在一般模型上效果比较好的逻辑回归和随机森林模型 。
1.逻辑回归
逻辑回归(LogisticRegression)是一种广义的线性回归分析模型 , 常用于数据挖掘、疾病自动诊断、经济预测等领域 。 其本质来说属于二分类问题 。 也就是预测值只有0和1(是或否) 。
逻辑回归模型有以下优点:一是预测结果是介于0和1之间的概率;二是可以适用于连续性和类别性自变量;三是该模型容易使用和解释 。 当然 , 逻辑回归也不是万能的 , 它也有一些缺点:一是对模型中自变量多重共线性较为敏感;二是它的预测结果呈“S”型 , 因此从Log(odds)向概率转化的过程是非线性的 , 在两端随着Log(odds)值的变化 , 概率变化很小 , 边际值太小 , 斜率太小 , 而中间概率的变化很大 , 很敏感 , 导致很多区间的变量变化对目标概率的影响没有区分度 , 确定阈值比较困难 。
2.随机森林
随机森林(RandomForest)是结合了一种决策树算法和Bagging方法的一种算法 , 也是现在热门的算法之一 。
(1)决策树 。 决策树是随机森林的基础 , 它是以实例为基础的归纳学习算法 。 常用的决策树算法有ID3、C4.5、CART三种 。 三种算法的模型构建思想都非常类似 , 但它们各自使用了不同的指标 。
(2)Bagging方法 。 Bagging算法的基础方法是自助抽样法(BootstrapSampling) 。 自助抽样法是指从原始样本数据集中有放回地随机抽取训练样本数据集 , 训练样本数据集中的个数与原始样本数据集中的个数相同 。 Bagging的基本思想是:选定一种元学习算法和一个原始样本数据集 , 利用元学习算法进行训练多轮 , 每轮训练集用BootstrapSampling抽取的方式从原始样本数据集获得 。
(3)随机森林原理 。 随机森林是一种基于决策树的算法 。 基本思想就是对原始样本数据集进行Bootstrap重抽样 , 然后用这些多次抽取的样本分别建立分类器 , 就会产生多种分类结果 , 最后根据这些分类结果对未知分类项进行投票 , 以决定它的分类 。
3.模型评估
客户流失预测是一个典型的分类问题 , 针对分类问题 , 常见的模型优劣的评估方法有混淆矩阵、ROC曲线和AUC值 。
(1)混淆矩阵 。 混淆矩阵是监督学习中的一种可视化工具 , 主要用于比较分类结果和实例的真实信息 。 矩阵中的每一行代表实例的预测类别 , 每一列代表实例的真实类别 。 具体如表1所示 。
(2)ROC曲线与AUC值 。 ROC曲线实质上就是FP率与TP率之间权衡的关系 , 曲线上的每个点表示正例的分类概率值取不同值时得到的不同的混淆矩阵 。 通俗地来说 , 即在TP率随着FP率递增的情况下 , 比较谁增长得更快 。 TP率增长得越快 , ROC曲线越靠近纵轴 , 曲线的斜率越大 。 ROC曲线以图形的方式直观的展现模型的分类精度 , 可以很快地判断出模型的拟合效果 。 尤其当正负实例不平衡时 , 这种模型评价方式相比普通的平均分类精度评价方式优势显著 。
客户流失预测模型构建1.基于逻辑回归和随机森林的客户流失预测
第一次建模选用了逻辑回归和随机森林的结合方法 , 第一步骤选用了逻辑回归分类 , 第二步骤选用了随机森林 。
对整体数据有一定的了解后 , 可以先进行第一步的建模 , 也就是预测客户是否会流失的情况 。 针对这方面 , 使用了2018年3月~2019年3月的数据进行模型的调试 , 并用2019年4~6月的实际数据预测流失客户 , 并与6月末的数据进行对比 。 最终 , 使用逻辑回归和随机森林预测出了可能流失的人数有6469人 , 其中有3644人真实流失 , 预测的准确性达到了56.33% 。
第一步骤预测完后 , 就可以对预测出可能会流失的人员进行资金流失等级预测 , 建模过程与第一步骤类似 。 在第二步骤的建模中 , 使用了随机森林模型 , 在进行随机森林建模的过程中 , 也可以调用Sklearn包协助进行建模 。 在随机森林中 , 有三个较为重要的指标 , 分别是每个树的叶子结点、弱分类器数量、叶子节点最少的样本数 。
本次建模选择的叶子结点个数为10 , 弱分类器的数量选择为200 , 叶子节点最少参数为2 。 最终预测结果如表2所示 。
2.基于随机森林的客户流失预测
在第二种模型的建模中 , 两个步骤的模型都选择使用随机森林模型来进行预测 , 在这里选用的参数都与之前所使用的参数一致 。 随机森林模型在2019年第二季度的预测结果显示:可能流失的人数有8801人 , 其中有5274人真实流失 , 预测的准确性达到了59.93% , 准确性略高于逻辑回归与随机森林混合模型的预测准确率 。
接下来再看第二个步骤 , 预测客户资金流失等级 , 具体数据如表3所示 。
客户流失预警模型应用为了挽留客户同时收益最大化 , 客户资产流失预警模型构建在已有业务经验的基础上 , 进行流失金额规模的划分 , 结合日益完善的客户数据 , 通过分析建模 , 挖掘客户在资产流失前的预警特征 , 通过大数据的不断学习和训练 , 拟合出符合客户实际行为特征的流失预警模型 , 分析模型中的重要特征 , 刻画出客户流失的大致画像 。
为验证模型预测效果 , 以2018年6月的真实数据 , 通过使用不同的客户筛选逻辑 , 结合客户外部数据进行预测 , 校验对比预测的准确性 。 如表4所示 , 在假设对基本相同量的客户进行挽回的情况下 , 理财到期的客户中流失比例较高 , 模型结果表现也基本相近;模型逻辑下 , 覆盖的流失金额高达68.3% , 同时可以看到50万以及100万以上的客户覆盖率远高于其他筛选逻辑 , 并且呈现逐步提高的趋势 , 与我们假设的在金额层面收益最大化目标相一致 。
综合各方原因 , 选取2019年3月底总资产金额大于10万元的2158位客户中的457位进行客户资产流失保有 。 通过客户流失预警模型 , 预测其中328位客户流失比例在65%以上 , 覆盖了50%以上的流失客户 , 其流失金额覆盖了2158位客户流失金额的83% , 户均将流失约30万元 。
通过营销保有 , 预计将有约20%以上的流失金额会留存 , 约为分行提供了3%的零售客户资产增长 , 同时挖掘出一定的理财及贷款机会 。
客户资产流失原因分析通过营销保有的反馈汇总归类 , 资产流失的主要原因可以归纳为:还贷需求、资金流动需求、理财需求、购房购车等消费需求 。
根据客户具体情况分析 , 大量客户为个体企业主 , 其私人账户的大量资金是用于进行资金周转以及工资支付等用途 , 该批客户的流动性需求较高 , 同时流失的风险更高 , 需要寻求保证其资金流动性的产品 , 可给予建议如发展成代发类客户等等 。
通过对各类流失客户的挽留可以发现:其中相对较易挽留的是有一定理财需求的客户 , 留存比例在55%;相对而言 , 有资金流动需求以及消费需求的客户留存机会较小 , 其留存比例分别在25%和27% , 属于客户的硬性流失范畴 , 因此 , 需开发更多灵活便捷的金融产品以应对此类情况 。
客户资产流失挽回策略建议通过对客户资产流失主要原因及留存比例的分析 , 在指定挽回策略上针对主要原因 , 结合客户经理的反馈 , 总结策略建议如下 。
一是还贷原因 。 客户因还贷款等原因需要流失一定资产情况下 , 可根据客户贷款到期情况进行一定的贷款营销和理财营销 。
二是资金流动原因 。 客户因资金流动原因需要流失一定资产情况下 , 可挖掘客户的一些对公业务需求 , 进行一定公私业务的联动发现贷款和理财机会 。
三是理财需求 。 客户因理财到期等原因需要流失一定资产情况下 , 及时的理财续期和对于一些未参与理财存款客户进行理财营销效果更显著 。
【实战 | 客户流失预警研究与应用】四是购房等消费需求 。 客户因购房等消费需求原因需要流失一定资产情况下 , 可发掘一定的贷款机会 , 同时配套更多的信用卡等产品的营销 。
推荐阅读
- 成龙的功夫是杂技,洪金宝胖的不灵活,周比利评价两人实战能力
- 央视新闻客户端|甘肃陇南文县泥石流灾害 堰塞湖已打开泄水口
- 央视新闻客户端|一架土耳其直升机在伊拉克境内坠毁 机组人员全部遇难
- 央视新闻客户端|世卫组织:全球新增250285例新冠肺炎确诊病例
- 央视新闻客户端|美国疾控中心前主任:新冠肺炎成为美国第三大致死原因
- IPFS/Filecoin上线后会涨的八大理由,实战讲解!
- 央视新闻客户端|四川德阳绵竹民警连夜在外抗洪 返回时派出所被洪水淹没
- 三条腿跑进商用车后市场,共轨之家如何帮客户降低10%维保费用?
- 珠海边检与澳门警察联合举行通关实战演练
- |反击亚马逊!英国连锁超市巨头乐购免除高端客户线上订单运费
