数据仓库架构及模型设计基础
注:本文所有内容摘自《Hadoop构建数据仓库实践》
1.数仓架构1.1数据集市架构数据集市是按主题域组织的数据集合 , 用于支持部门级的决策 。 有两种类型的数据集市:独立数据集市和从属数据集市 。 独立数据集市集中于部门所关心的单一主题域 , 数据以部门为基础部署 , 无须考虑企业级别的信息共享与集成 。 例如 , 制造部门、人力资源部门和其他部门都各自有他们自己的数据集市 。 独立数据集市从一个主题域或一个部门的多个事务系统获取数据 , 用以支持特定部门的业务分析需要 。 一个独立数据集市的设计既可以使用实体关系模型 , 也可以使用多维模型 。 数据分析或商业智能工具直接从数据集市查询数据 , 并将查询结果显示给用户 。 一个典型的独立数据集市架构如图1-2所示 。 因为一个部门的业务相对于整个企业要简单 , 数据量也小得多 , 所以部门的独立数据集市具有周期短、见效快的特点 。 如果从企业整体的视角来观察这些数据集市 , 你会看到每个部门使用不同的技术 , 建立不同的ETL的过程 , 处理不同的事务系统 , 而在多个独立的数据集市之间还会存在数据的交叉与重叠 , 甚至会有数据不一致的情况 。 从业务角度看 , 当部门的分析需求扩展 , 或者需要分析跨部门或跨主题域的数据时 , 独立数据市场会显得力不从心 。 而当数据存在歧义 , 比如同一个产品 , 在A部门和B部门的定义不同时 , 将无法在部门间进行信息比较 。
1.2Inmon企业信息工厂架构Inmon企业信息工厂架构如图1-4所示 , 我们来看图中的组件是如何协同工作的 。
2数据仓库模型设计基础2.1关系数据模型表设计规范化是通过应用范式规则实现的 。 最常用的范式有第一范式(1NF)、第二范式(2NF)、第三范式(3NF)
满足第一范式 。 没有部分依赖 。例如 , 员工表的一个候选键是{id , mobile , deptNo} , 而deptName依赖于{deptNo} , 同样name仅依赖于{id} , 因此不是2NF的 。 为了满足第二范式的条件 , 需要将这个表拆分成employee、dept、employee_dept、employee_mobile四个表 , 如表2-7至表2-10所示 。
满足第二范式 。 没有传递依赖 。例如 , 员工表的province、city、district依赖于zip , 而zip依赖于{id} , 换句话说 , province、city、district传递依赖于{id} , 违反了3NF规则 。 为了满足第三范式的条件 , 可以将这个表拆分成employee和zip两个表 , 如表2-11、表2-12所示 。
2.2维度数据模型维度数据模型简称维度模型(Dimensionalmodeling,DM) , 是一套技术和概念的集合 , 用于数据仓库设计 。 不同于关系数据模型 , 维度模型不一定要引入关系数据库 。 在逻辑上相同的维度模型 , 可以被用于多种物理形式 , 比如维度数据库或是简单的平面文件 。 根据数据仓库大师Kimball的观点 , 维度模型是一种趋向于支持最终用户对数据仓库进行查询的设计技术 , 是围绕性能和易理解性构建的 。 尽管关系模型对于事务处理系统表现非常出色 , 但它并不是面向最终用户的 。 事实和维度是两个维度模型中的核心概念 。 事实表示对业务数据的度量 , 而维度是观察数据的角度 。 事实通常是数字类型的 , 可以进行聚合和计算 , 而维度通常是一组层次关系或描述信息 , 用来定义事实 。 例如 , 销售金额是一个事实 , 而销售时间、销售的产品、购买的顾客、商店等都是销售事实的维度 。 维度模型按照业务流程领域即主题域建立 , 例如进货、销售、库存、配送等 。 不同的主题域可能共享某些维度 , 为了提高数据操作的性能和数据一致性 , 需要使用一致性维度 , 例如几个主题域间共享维度的复制 。 术语“一致性维度”源自Kimball , 指的是具有相同属性和内容的维度 。
2.2.1维度数据模型建模过程维度模型通常以一种被称为星型模式的方式构建 。 所谓星型模式 , 就是以一个事实表为中心 , 周围环绕着多个维度表 。 还有一种模式叫做雪花模式 , 是对维度做进一步规范化后形成的 。 本节后面会讨论这两种模式 。 一般使用下面的过程构建维度模型:
选择业务流程声明粒度确认维度确认事实这种使用四步设计法建立维度模型的过程 , 有助于保证维度模型和数据仓库的可用性 。
1.选择业务流程确认哪些业务处理流程是数据仓库应该覆盖的 , 是维度方法的基础 。 因此 , 建模的第一个步骤是描述需要建模的业务流程 。 例如 , 需要了解和分析一个零售店的销售情况 , 那么与该零售店销售相关的所有业务流程都是需要关注的 。 为了描述业务流程 , 可以简单地使用纯文本将相关内容记录下来 , 或者使用“业务流程建模标注”(BPMN)方法 , 也可以使用统一建模语言(UML)或其他类似的方法 。 2.声明粒度确定了业务流程后 , 下一步是声明维度模型的粒度 。 这里的粒度用于确定事实中表示的是什么 , 例如 , 一个零售店的顾客在购物小票上的一个购买条目 。 在选择维度和事实前必须声明粒度 , 因为每个候选维度或事实必须与定义的粒度保持一致 。 在一个事实所对应的所有维度设计中强制实行粒度一致性是保证数据仓库应用性能和易用性的关键 。 从给定的业务流程获取数据时 , 原始粒度是最低级别的粒度 。 建议从原始粒度数据开始设计 , 因为原始记录能够满足无法预期的用户查询 。 汇总后的数据粒度对优化查询性能很重要 , 但这样的粒度往往不能满足对细节数据的查询需求 。 不同的事实可以有不同的粒度 , 但同一事实中不要混用多种不同的粒度 。 维度模型建立完成之后 , 还有可能因为获取了新的信息 , 而回到这步修改粒度级别 。 3.确认维度设计过程的第三步是确认模型的维度 。 维度的粒度必须和第二步所声明的粒度一致 。 维度表是事实表的基础 , 也说明了事实表的数据是从哪里采集来的 。 典型的维度都是名词 , 如日期、商店、库存等 。 维度表存储了某一维度的所有相关数据 , 例如 , 日期维度应该包括年、季度、月、周、日等数据 。
4.确认事实确认维度后 , 下一步也是维度模型四步设计法的最后一步 , 就是确认事实 。 这一步识别数字化的度量 , 构成事实表的记录 。 它是和系统的业务用户密切相关的 , 因为用户正是通过对事实表的访问获取数据仓库存储的数据 。 大部分事实表的度量都是数字类型的 , 可累加 , 可计算 , 如成本、数量、金额等 。 2.2.2维度规范化与关系模型类似 , 维度也可以进行规范化 。 对维度的规范化(又叫雪花化) , 可以去除冗余属性 , 是对非规范化维度做的规范化处理 , 在下面介绍雪花模型时 , 会看到维度规范化的例子 。 一个非规范化维度对应一个维度表 , 规范化后 , 一个维度会对应多个维度表 , 维度被严格地以子维度的形式连接在一起 。 实际上 , 在很多情况下 , 维度规范化后的结构等同于一个低范式级别的关系型结构 。 设计维度数据模型时 , 会因为如下原因而不对维度做规范化处理:
规范化会增加表的数量 , 使结构更复杂 。 不可避免的多表连接 , 使查询更复杂 。 不适合使用位图索引 。 查询性能原因 。 分析型查询需要聚合计算或检索很多维度值 , 此时第三范式的数据库会遭遇性能问题 。 如果需要的仅仅是操作型报表 , 可以使用第三范式 , 因为操作型系统的用户需要看到更细节的数据 。正如在前面关系模型中提到的 , 对于是否应该规范化的问题存在一些争论 。 总体来说 , 当多个维度共用某些通用的属性时 , 做规范化会是有益的 。 例如 , 客户和供应商都有省、市、区县、街道等地理位置的属性 , 此时分离出一个地区属性就比较合适 。
2.2.3维度数据模型的特点(1)易理解 。 相对于规范化的关系模型 , 维度模型容易理解且更直观 。 在维度模型中 , 信息按业务种类或维度进行分组 , 这会提高信息的可读性 , 也方便了对于数据含义的解释 。 简化的模型也让系统以更为高效的方式访问数据库 。 关系模型中 , 数据被分布到多个离散的实体中 , 对于一个简单的业务流程 , 可能需要很多表联合在一起才能表示 。 (2)高性能 。 维度模型更倾向于非规范化 , 因为这样可以优化查询的性能 。 介绍关系模型时多次提到 , 规范化的实质是减少数据冗余 , 以优化事务处理或数据更新的性能
(3)可扩展 。 维度模型是可扩展的 。 由于维度模型允许数据冗余 , 因此当向一个维度表或事实表中添加字段时 , 不会像关系模型那样产生巨大的影响 , 带来的结果就是更容易容纳不可预料的新增数据 。 这种新增可以是单纯地向表中增加新的数据行而不改变表结构 , 也可以是在现有表上增加新的属性 。 基于数据仓库的查询和应用不需要过多改变就能适应表结构的变化 , 老的查询和应用会继续工作而不会产生错误的结果 。 但是对于规范化的关系模型 , 由于表之间存在复杂的依赖关系 , 改变表结构前一定要仔细考虑 。
2.2.4星形模型星型模式是维度模型最简单的形式 , 也是数据仓库以及数据集市开发中使用最广泛的形式 。 星型模式由事实表和维度表组成 , 一个星型模式中可以有一个或多个事实表 , 每个事实表引用任意数量的维度表 。 星型模式的物理模型像一颗星星的形状 , 中心是一个事实表 , 围绕在事实表周围的维度表表示星星的放射状分支 , 这就是星型模式这个名字的由来 。 星型模式将业务流程分为事实和维度 。 事实包含业务的度量 , 是定量的数据 , 如销售价格、销售数量、距离、速度、重量等是事实 。 维度是对事实数据属性的描述 , 如日期、产品、客户、地理位置等是维度 。 一个含有很多维度表的星型模式有时被称为蜈蚣模式 , 显然这个名字也是因其形状而得来的 。 蜈蚣模式的维度表往往只有很少的几个属性 , 这样可以简化对维度表的维护 , 但查询数据时会有更多的表连接 , 严重时会使模型难于使用 , 因此在设计中应该尽量避免蜈蚣模式 。
1.事实表事实表记录了特定事件的数字化的考量 , 一般由数字值和指向维度表的外键组成 。 通常会把事实表的粒度级别设计得比较低 , 使得事实表可以记录很原始的操作型事件 , 但这样做的负面影响是累加大量记录可能会更耗时 。 事实表有以下三种类型:
事务事实表 。 记录特定事件的事实 , 如销售 。 快照事实表 。 记录给定时间点的事实 , 如月底账户余额 。 累积事实表 。 记录给定时间点的聚合事实 , 如当月的总的销售金额 。 一般需要给事实表设计一个代理键作为每行记录的唯一标识 。 代理键是由系统生成的主键 , 它不是应用数据 , 没有业务含义 , 对用户来说是透明的 。2.维度表维度表的记录数通常比事实表少 , 但每条记录包含有大量用于描述事实数据的属性字段 。 维度表可以定义各种各样的特性 , 以下是几种最长用的维度表:
时间维度表 。 描述星型模式中记录的事件所发生的时间 , 具有所需的最低级别的时间粒度 。 数据仓库是随时间变化的数据集合 , 需要记录数据的历史 , 因此每个数据仓库都需要一个时间维度表 。 地理维度表 。 描述位置信息的数据 , 如国家、省份、城市、区县、邮编等 。 产品维度表 。 描述产品及其属性 。 人员维度表 。 描述人员相关的信息 , 如销售人员、市场人员、开发人员等 。 范围维度表 。 描述分段数据的信息 , 如高级、中级、低级等 。通常给维度表设计一个单列、整型数字类型的代理键 , 映射业务数据中的主键 。 业务系统中的主键本身可能是自然键 , 也可能是代理键 。 自然键指的是由现实世界中已经存在的属性组成的键 , 如身份证号就是典型的自然键 。
3.优点星型模式是非规范化的 , 在星型模式的设计开发过程中 , 不受应用于事务型关系数据库的范式规则的约束 。 星型模式的优点下:
简化查询 。 查询数据时 , 星型模式的连接逻辑比较简单 , 而从高度规范化的事务模型查询数据时 , 往往需要更多的表连接 。 简化业务报表逻辑 。 与高度规范化的模式相比 , 由于查询更简单 , 因此星型模式简化了普通的业务报表(如每月报表)逻辑 。 获得查询性能 。 星型模式可以提升只读报表类应用的性能 。 快速聚合 。 基于星型模式的简单查询能够提高聚合操作的性能 。 便于向立方体提供数据 。 星型模式被广泛用于高效地建立OLAP立方体 , 几乎所有的OLAP系统都提供ROLAP模型(关系型OLAP) , 它可以直接将星型模式中的数据当作数据源 , 而不用单独建立立方体结构 。4.缺点星型模式的主要缺点是不能保证数据完整性 。 一次性地插入或更新操作可能会造成数据异常 , 而这种情况在规范化模型中是可以避免的 。 星型模式的数据装载 , 一般都是以高度受控的方式 , 用批处理或准实时过程执行的 , 以此来抵消数据保护方面的不足 。 星型模式的另一个缺点是对于分析需求来说不够灵活 。 它更偏重于为特定目的建造数据视图 , 因此实际上很难进行全面的数据分析 。 星型模式不能自然地支持业务实体的多对多关系 , 需要在维度表和事实表之间建立额外的桥接表 。
2.2.5雪花模式雪花模式是一种多维模型中表的逻辑布局 , 其实体关系图有类似于雪花的形状 , 因此得名 。 与星型模式相同 , 雪花模式也是由事实表和维度表所组成 。 所谓的“雪花化”就是将星型模式中的维度表进行规范化处理 。 当所有的维度表完成规范化后 , 就形成了以事实表为中心的雪花型结构 , 即雪花模式 。 将维度表进行规范化的具体做法是 , 把低基数的属性从维度表中移除并形成单独的表 。 基数指的是一个字段中不同值的个数 , 如主键列具有唯一值 , 所以有最高的基数 , 而像性别这样的列基数就很低 。 在雪花模式中 , 一个维度被规范化成多个关联的表 , 而在星型模式中 , 每个维度由一个单一的维度表所表示 。 一个规范化的维度对应一组具有层次关系的维度表 , 而事实表作为雪花模式里的子表 , 存在具有层次关系的多个父表 。 星型模式和雪花模式都是建立维度数据仓库或数据集市的常用方式 , 适用于加快查询速度比高效维护数据的重要性更高的场景 。 这些模式中的表没有特别的规范化 , 一般都被设计成一个低于第三范式的级别 。
1.数据规范化与存储规范化的过程就是将维度表中重复的组分离成一个新表 , 以减少数据冗余的过程 。 正因为如此 , 规范化不可避免地增加了表的数量 。 在执行查询的时候 , 不得不连接更多的表 。 但是规范化减少了存储数据的空间需求 , 而且提高了数据更新的效率 。 这点在前面介绍关系模型时已经进行了详细的讨论 。 从存储空间的角度看 , 典型的情况是维度表比事实表小很多 。 这就使得雪花化的维度表相对于星型模式来说 , 在存储空间上的优势没那么明显了 。 举例来说 , 假设在220个区县的200个商场 , 共有100万条销售记录 。 星型模式的设计会产生1,000,200条记录 , 其中事实表1,000,000条记录 , 商场维度表有200条记录 , 每个区县信息作为商场的一个属性 , 显式地出现在商场维度表中 。 在规范化的雪花模式中 , 会建立一个区县维度表 , 该表有220条记录 , 商场表引用区县表的主键 , 有200条记录 , 事实表没有变化 , 还是1,000,000条记录 , 总的记录数是1,000,420(1,000,000+200+220) 。 在这种特殊情况(作为子表的商场记录数少于作为父表的区县记录数)下 , 星型模式所需的空间反而比雪花模式要少 。 如果商场有10,000个 , 情况就不一样了 , 星型模式的记录数是1,010,000 , 雪花模式的记录数是1,010,220 , 从记录数上看 , 还是雪花模型多 。 但是 , 星型模式的商场表中会有10,000个冗余的区县属性信息 , 而在雪花模式中 , 商场表中只有10,000个区县的主键 , 而需要存储的区县属性信息只有220个 , 当区县的属性很多时 , 会大大减少数据存储占用的空间 。 有些数据库开发者采取一种折中的方式 , 底层使用雪花模型 , 上层用表连接建立视图模拟星型模式 。
这种方法既通过对维度的规范化节省了存储空间 , 同时又对用户屏蔽了查询的复杂性 。 但是当外部的查询条件不需要连接整个维度表时 , 这种方法会带来性能损失 。 2.优点雪花模式是和星型模式类似的逻辑模型 。 实际上 , 星型模式是雪花模式的一个特例(维度没有多个层级) 。 某些条件下 , 雪花模式更具优势:一些OLAP多维数据库建模工具专为雪花模型进行了优化 。 规范化的维度属性节省存储空间 。 【数据仓库架构及模型设计基础】3.缺点雪花模型的主要缺点是维度属性规范化增加了查询的连接操作和复杂度 。 相对于平面化的单表维度 , 多表连接的查询性能会有所下降 。 但雪花模型的查询性能问题近年来随着数据浏览工具的不断优化而得到缓解 。 和具有更高规范化级别的事务型模式相比 , 雪花模式并不确保数据完整性 。 向雪花模式的表中装载数据时 , 一定要有严格的控制和管理 , 避免数据的异常插入或更新 。
推荐阅读
- 卡瑞利珠单抗|2021 ELCC|春风得意马蹄疾:肺鳞癌一线治疗两大研究数据出炉
- ebmt|2021 EBMT大会研究进展精选,这些数据你了解吗?
- 疫苗|又有欧洲国家叫停牛津疫苗!法国接种后副作用数据来了
- 天问一号|天问一号即将登陆,美国呼吁共享科研成果,要求交出火星轨道数据
- 火星|美国已有5台探测器着陆火星,为何还要天问一号的数据?
- nasa|NASA再索要探火数据,中方回应提气,你强了美国才会尊重!
- 食香椿要不要焯烫?一组对比实验数据给出科学答案
- 埃隆马斯克|世界是虚拟的?所有人都是“0+1”的数据?疯狂的世界虚拟论
- 亚硝酸盐|隔夜菜到底能不能吃?真的致癌吗?用实测数据告诉你真相
- 中科院空天院|(科技)中科院空天院发布近50年中国典型城市扩展遥感监测数据库
