自学B站课程笔记总结:
在风投领域,如何为客群分群呢?有些时候是有标签的 。如:客户是否有过欺诈、非欺诈的行为 。
另外一种情况,则需要通过其他类型的特征进行判断了,如消费记录、还款记录、提现记录等 。
例如,我们可以人为定义高风险客户,低风险客户、高消费客户、低消费客户 。
说到聚类,就要提簇的概念,不重叠,也不覆盖的 。通过定义距离,来度量相似的程度,米尼科夫斯基距离 。适合数值型的变量 。
文章插图
距离公式
文章插图
类别性变量
文章插图
类别性变量转化为数值型变量
文章插图
簇间距
文章插图
数据预处理方法
如果有一些人的收入在100万,相对比较少的时候,用归一化的处理效果并不好,分母还是特别高 。除此之外,新的样本还会出现比0小,或者比1大的结果 。
文章插图
衡量聚类效果好坏
文章插图
计算误差或距离的方法
如果聚类模型做的好,则样本距离簇的整体最好 。贪心策略指每一步都朝着更好的方向 。
文章插图
文章插图
先用层次聚类,选出的精度比较好 。
文章插图
文章插图
文章插图
假设少量样本覆盖了各种情况 。
文章插图
文章插图
【机器学习-人工智能-用户分群--聚类分析】
推荐阅读
- 一 人工智能:70年AI发展史
- 行业颠覆!人工智能改变2020年IT行业的四种方式
- 七大人工智能科技趋势
- 学习了“穿衣显贵”的6条时尚法则,我的衣品更高了!会穿让人美
- MySQL如何快速插入数据
- 库卡机器人斩获宝马5000台机器人订单;国家发改委明确新基建范围
- 重大事故!IO问题引发线上20台机器同时崩溃
- 图解机器学习:人人都能懂的算法原理
- 收藏!中国人工智能企业最新排行榜(含A股)
- 雷蛇|雷蛇打造世界最强深度学习笔记本 售价超2万元