2分钟了解用户画像标签 阿里用户画像标签体系

最近开始了一个用户画像项目,真的是满满的“坑” 。你一定想问,不就是一个用户画像吗,会这么讨厌吗?现在做这个项目可能要拆分成几个问题 。
什么是用户画像?
用户画像又称人群画像,是基于用户的人口统计信息(自身属性)、社交关系、偏好、习惯、消费行为等抽象的标签化画像 。
如何制作用户画像
构建用户画像的核心工作是给用户贴标签 。
什么是“标签”?
对某一群体或对象的某一特征的抽象分类或概括 。那么你可能会得到这样一张图片:
“标签”是根据用户的行为数据直接获取的,有些是通过一系列算法或规则挖掘获得的 。直接获取的数据更容易理解,比如用户在网站或app上主动填写上传的数据 。严格来说,有些平台(如电商平台)会要求用户上传身份证、学生证、驾驶证、银行卡等 。,这样数据的准确性更高 。
所以,毫无疑问,阿里、JD.COM、腾讯在用户基础数据的准确性上(有自己的用户识别账号,比如你的一串微信号号、淘宝账号、JD.COM账号),已经把百度甩了好几条街 。
关于标签的准确性,你想到几家公司?没错,中国移动、中国联通、中国电信的标签系统本来就精确得可怕 。
为什么这么说?首先,对于一个手机号,几乎记录了你所有的信息,比如性别、年龄、居住地等用户基本信息 。这时候你就在想是不是只有这些东西会被记录下来 。那你真的想多了,因为上网用什么?交通 。“流量”基本可以记录你用了什么app,访问了什么页面,每秒浏览了多长时间...
当然,这些信息不算什么 。最妙的是,只要带上手机,手机卡大约等于一个GPS 。你住过哪家咖啡店和酒店,都会被马克贴出来 。以后通信基站的定位精度要在5m以内(此时可以了解一下基站和通信原理) 。(不敢再比了)
为什么被人像标签系统炸了?
在这里,标签按照处理过程和获取标签的方式分为三种,即事实标签、模型标签和预测标签 。不同类别有不同的处理方式 。见下图:
事实标签:直接从原始数据中提取,如性别、年龄、常住户口、在线时间等 。
模型标签:注意这里的模型不是机器学习模型,类似于类别偏好和RFM模型 。
预测标签:预测标签有时与事实标签结合使用,例如,用户无法注册性别消息(没有实名注册系统),或者他填写了错误的性别 。这时候通过聚类分析和相似度计算,就可以看一些和这个用户相似的用户的行为(这部分用户已经知道性别),根据这些不同的规则来判断和标记这个人的性别 。
通过算法和数据挖掘得到的预测标签也可以这样理解:比如一个用户最近开始购买母婴类产品(比如新宝宝的一段奶粉和纸尿裤),那么就可以根据用户购买的频率和数量以及用户的年龄和性别推断出该用户是否是新妈妈/爸爸 。其实就是通过用户行为建立特征工程,然后进行预测 。
这很容易理解,但实际上这些任务是最费时费力的 。有时候,因为一个逻辑错误,可能需要重新计算ETL脚本作业,不断推翻重新开始,不断踩坑爬坑 。然而,这是一项非常重要的任务 。无论是下面的精准营销,还是个性化推荐,第一步都是要有一个完整精准的用户画像标签体系 。最后和业务线核实,调整现有的标签体系,形成一个完善的闭环 。
最后,以上工作不是Python能解决的 。要真正做一些可视化的用户画像工作或者建立相关的机器学习算法模型,就需要使用已经计算好的各种标签表,开发相应的Python脚本,然后在线部署 。所以,一个好的分析师或者算法工程师,绝不是“[S2/]对数据科学守口如瓶,你连HQL [/s2/]”都不会 。
【2分钟了解用户画像标签 阿里用户画像标签体系】总结:这篇论文只是个人项目工作学习的一个思考过程,会有一些问题 。希望大家多多指教,多多讨论 。也希望大家脚踏实地,做好你们眼中每一项不起眼的基础工作 。如果你把你的分析定位为数据检索,那么你就是一个数据检索 。如果你明白你为什么分析,那么你就是一个分析师,一个不可或缺的分析师 。


    推荐阅读