中年在数据分析中,我们需要掌握这4种思维模式( 三 )


  • 事实表用来记录具体事件 , 比如销量、销售额、售价、折扣等具体的数值信息 。
  • 维度表是对事实表中事件的要素的描述信息 , 比如时间、城市、品牌、机型等 。
这是一个最简单的星形模型的实例:
中年在数据分析中,我们需要掌握这4种思维模式
本文插图
事实表里面主要包含两方面的信息:维和度量 。
  • 维的具体描述信息记录在维表 , 事实表中的维属性只是一个关联到维表的键 , 并不记录具体信息;
  • 度量一般都会记录事件的相应数值 , 比如这里的产品的销售数量、销售额等 。
维表中的信息一般是可以分层的 , 比如时间维的年月日、地域维的省市县等;这类分层的信息就是为了满足事实表中的度量可以在不同的粒度上完成聚合 , 比如2016年商品的销售额 , 来自上海市的销售额等 。
下图举例一个简化的分析模型 , 分别由产品、城市、时间这三个维度组成 , 实际数据分析中 , 维度远不止三个 。
中年在数据分析中,我们需要掌握这4种思维模式
本文插图
在数库中 , 可能是这样两张表:
中年在数据分析中,我们需要掌握这4种思维模式
本文插图
我们可以将品牌作为维度 , 分析手机的销量情况 , 也可以将时间作为维度 , 分析每一年手机市场的份额情况 。
多维分析操作包括:钻取(Drill-down)、上卷(Roll-up)、切片(Slice)、切块(Dice)以及旋转(Pivot) 。
  • 钻取(Drill-down):在维的不同层次间的变化 , 从上层降到下一层 , 或者说是将汇总数据拆分到更细节的数据;比如通过对2018年华为的总销售数据进行钻取来查看各个手机型号的销售数据 。
  • 上卷(Roll-up):钻取的逆操作 , 即从细粒度数据向高层的聚合;如将江苏省、上海市和浙江省的销售数据进行汇总来查看江浙沪地区的销售数据 。
  • 切片(Slice):选择维中特定的值进行分析;比如只选择苹果手机的销售数据 , 或2017年的手机销售数据 。
  • 切块(Dice):选择维中特定区间的数据进行分析;比如选择2016年2017年的销售数据 。
  • 旋转(Pivot):即维的位置的互换 , 就像是二维表的行列转换;如图中通过旋转实现产品维和地域维的互换 。
为什么这边花那么多笔墨去讲维度和度量呢?
  • 一者是我们在梳理分析思路时 , 常常会按照几个大的维度类去划分层级、多面分析 , 如时间维、地域维、产品维 , 帮助我们成为“多面分析手” 。
  • 另一方面 , BI商业智能在操作也基于维度一说 , 熟悉维度和数据模型的原理 , 能更好的理解这个工具 。
好了 , 花了一天的时间整理了数据分析的思维 , 大家慢慢消化 。
作者:李启方 , 公众号:数据分析不是个事儿
本文由 @李启方 原创发布于人人都是产品经理 。 未经许可 , 禁止转载
题图来自Unsplash , 基于CC0协议
【中年在数据分析中,我们需要掌握这4种思维模式】


推荐阅读