数据库:数据分析小白手册 | 这些常见概念你都掌握了吗?( 二 )


Matplotlib
Seaborn
Bokeh、Plotly、Pyecharts、Mapbox 和 Geoplotlib等
2. 商业智能软件
Tableau
PowerBI
3. 可视化大屏
大屏作为一种视觉效果强、科技感强的技术 , 被企业老板所青睐 , 可以很好地展示公司的数据化能力
4. 前端可视化组件
可视化组件都是基于 Web 渲染的技术的
Web 渲染技术:Canvas(位图)、SVG (失量图)和 WebGL(3D绘图)
什么是用户画像
简单的说 , 用户画像就是标签的汇总 , 用户画像是现实世界中的用户的数学建模 , 将海量数据进行标签化 , 来复以更精准的用户画像 , 用户标签能产生的业务价值

  • 在获客上 , 找到优势的宣传渠道 , 通过个性化的宣传手段吸引有潜在需求的用户
  • 在粘客上 , 提升用户的单价和消费频次
  • 在留客上 , 降低流失率 , 顾客流失率降低 5% , 公司利润提升 25% ~ 85%
1. 用户标签4个纬度
  • 基础信息:性别、年龄、地域、收入、学历、职业等
  • 消费信息:消费习惯、购买意向、是否对促销敏感
  • 行为分析:时间段、频次、时长、访问路径
  • 内容分析:浏览的内容、停留时长、浏览次数 , 内容类型 , 如金融、娱乐、教育、体育、时尚、科技等
2. 数据处理的3个阶段
  • 业务层:获客预测、个性化推荐、用户流失率、GMV趋势预测
  • 算法层:用户兴趣、用户活跃度、产品购买偏好、用户关联关系、用户满意度、渠道使用偏好、支付使用偏好、优惠券偏好
  • 数据层:用户属性、投诉次数、产品购买次数、渠道使用频率、优惠券使用、访问时长、支付渠道使用、浏览内容频次
什么是埋点
在需要的位置采集相应的信息 , 进行上报 。 比如用户信息、设备信息、操作行为数据 , 埋点一般是在需要统计数据的地方植入统计代码 。
数据采集都有哪些方式
  • 开源数据源
  • 爬虫抓取
  • 日志采集
  • 传感器
什么是数据清洗
数据清洗是去除重复数据、干扰数据及填充缺失值 。
数据清洗的4个关键点(完全合一):
  • 完整性:单条数据是否存在空值 , 统计的字段是否完善
  • 全面性:观察某一列的全部数值 , 判断列是否有问题 , 比如:数据定义、单位标识、数值本身 。 例如有的单位是克 , 有的是千克或磅
  • 合法性:数据的类型、内容、大小的合法性 。 例如存在非ASCII字符 , 性别未知 , 年龄超过150岁等 。
  • 唯一性:数据是否存在重复记录 。 因为数据通常来自不同渠道的汇总 , 重复的情况是常见的 , 行和列数据都需要是唯一的
什么是数据集成
【数据库:数据分析小白手册 | 这些常见概念你都掌握了吗?】数据集成是将多个数据源合并存放在一个数据存储中(如数据仓库) 大数据项目中80%的工作都和数据集成有关 。
  • Extract / 提取 :从datasource/txt/csv/Excel/等原始数据源中 Extract数据
  • Transform / 转换 :将数据预处理 , 字段补全、类型检查、去除重复数据等 , 根据预定的条件将数据统一起来
  • Load / 装载 :将转换完的数据存到数据仓库中
1. 数据集成的两种架构