数据库:数据分析小白手册 | 这些常见概念你都掌握了吗?( 二 )
Matplotlib
Seaborn
Bokeh、Plotly、Pyecharts、Mapbox 和 Geoplotlib等
2. 商业智能软件
Tableau
PowerBI
3. 可视化大屏
大屏作为一种视觉效果强、科技感强的技术 , 被企业老板所青睐 , 可以很好地展示公司的数据化能力
4. 前端可视化组件
可视化组件都是基于 Web 渲染的技术的
Web 渲染技术:Canvas(位图)、SVG (失量图)和 WebGL(3D绘图)
什么是用户画像
简单的说 , 用户画像就是标签的汇总 , 用户画像是现实世界中的用户的数学建模 , 将海量数据进行标签化 , 来复以更精准的用户画像 , 用户标签能产生的业务价值
- 在获客上 , 找到优势的宣传渠道 , 通过个性化的宣传手段吸引有潜在需求的用户
- 在粘客上 , 提升用户的单价和消费频次
- 在留客上 , 降低流失率 , 顾客流失率降低 5% , 公司利润提升 25% ~ 85%
- 基础信息:性别、年龄、地域、收入、学历、职业等
- 消费信息:消费习惯、购买意向、是否对促销敏感
- 行为分析:时间段、频次、时长、访问路径
- 内容分析:浏览的内容、停留时长、浏览次数 , 内容类型 , 如金融、娱乐、教育、体育、时尚、科技等
- 业务层:获客预测、个性化推荐、用户流失率、GMV趋势预测
- 算法层:用户兴趣、用户活跃度、产品购买偏好、用户关联关系、用户满意度、渠道使用偏好、支付使用偏好、优惠券偏好
- 数据层:用户属性、投诉次数、产品购买次数、渠道使用频率、优惠券使用、访问时长、支付渠道使用、浏览内容频次
在需要的位置采集相应的信息 , 进行上报 。 比如用户信息、设备信息、操作行为数据 , 埋点一般是在需要统计数据的地方植入统计代码 。
数据采集都有哪些方式
- 开源数据源
- 爬虫抓取
- 日志采集
- 传感器
数据清洗是去除重复数据、干扰数据及填充缺失值 。
数据清洗的4个关键点(完全合一):
- 完整性:单条数据是否存在空值 , 统计的字段是否完善
- 全面性:观察某一列的全部数值 , 判断列是否有问题 , 比如:数据定义、单位标识、数值本身 。 例如有的单位是克 , 有的是千克或磅
- 合法性:数据的类型、内容、大小的合法性 。 例如存在非ASCII字符 , 性别未知 , 年龄超过150岁等 。
- 唯一性:数据是否存在重复记录 。 因为数据通常来自不同渠道的汇总 , 重复的情况是常见的 , 行和列数据都需要是唯一的
【数据库:数据分析小白手册 | 这些常见概念你都掌握了吗?】数据集成是将多个数据源合并存放在一个数据存储中(如数据仓库) 大数据项目中80%的工作都和数据集成有关 。
- Extract / 提取 :从datasource/txt/csv/Excel/等原始数据源中 Extract数据
- Transform / 转换 :将数据预处理 , 字段补全、类型检查、去除重复数据等 , 根据预定的条件将数据统一起来
- Load / 装载 :将转换完的数据存到数据仓库中
- ELT 过程为数据提取(Extract)——转换(Transform)——加载(Load) , 在数据源抽取后首先进行转换 , 然后将转换的结果写入目的地 。
- ETL 过程为数据提取(Extract)——加载(Load)——转换(Transform) , 在数据抽取后将结果先写入目的地 , 然后利用数据库的聚合分析能力或者外部框架 , 如Spark来完成转换的步骤 。
推荐阅读
- []学会这个最基础的统计学知识,数据分析专业度提升一大截
- 『技术』互联网时代,技术驱动,数据分析,推动企业创新服务!
- 『小白一键重装系统』win10系统应用商店不见了怎么办
- ##美国能源部门数据安全遭遇重创 RigUp数据库泄露76000份保密文件
- 科技数码先生:上官婉儿大招不会“飞”?拿着iQOO 3试一下,游戏小白变大神
- 『趣味科技』新型第二代 EPYC 处理器:重新定义数据库、商用 HPC 和超融合工作负载性能
- 「」芯片“大翻车”!伪5G手机让我们变成小白鼠,华为笑了!
- ■【行情】同样3999米10/Ace2你选哪个?小白一图对比参数
- 「白问」【行情】同样3999米10/Ace2你选哪个?小白一图对比参数
- #CDA数据分析师#2020年软件工程现状:Python或将成为第一大编程语言