数据中台交付专家告诉你,数据架构的分层怎样更加合理?


从整体上看 , 数据中台体系架构可分为:数据采集层、数据计算层、数据服务层三大层次 。 通过这三大层次对上层数据应用提供数据支撑 。
数据采集层
对于企业来说 , 每时每刻都在产生海量的数据 , 数据采集作为数据体系第一环尤为重要 。
因此在数据采集层需要建立了一套标准的数据采集体系方案 , 并致力全面、高性能、规范地完成海量数据的采集 , 将其传输到大数据平台 。
互联网日志采集体系包括两大体系:Web端日志采集技术方案;APP端日志采集技术方案 。
在采集技术之上 , 企业可以用面向各个场景的埋点规范 , 来满足日志数据打通等多种业务场景 。 同时 , 还可以建立了一套高性能、高可靠性的数据传输体系完成数据从生产业务端到大数据系统的传输;在传输方面 , 采集技术可既包括数据库的增量数据传输 , 也包括日志数据的传输;既需要能支持实时流式计算、也能实时各种时间窗口的批量计算 。 另一方面 , 也通过数据同步工具直连异构数据库(备库)来抽取各种时间窗口的数据 。
下图展示数据采集层在数据分层中的位置:
数据中台交付专家告诉你,数据架构的分层怎样更加合理?
本文插图
数据计算层
从采集系统中收集了大量的原始数据后 , 数据只有被整合、计算才能被用于洞察商业规律、挖掘潜在信息 , 实现大数据价值 , 达到赋能商业、创造商业的目的 。 从采集系统中收集到的大量原始数据 , 将进入数据计算层中被进一步整合与计算 。
面对海量的数据和复杂的计算 , 数据计算层包括两大体系:数据存储及计算云平台和数据整合及管理体系 。

  • 数据存储及计算云平台例如 , MaxCompute是阿里巴巴自主研发的离线大数据平台 , 其丰富的功能和强大的存储及计算能力使得企业的大数据有了强大的存储和计算引擎;StreamCompute是阿里巴巴自主研发的流式大数据平台 , 在内部较好地支持了企业流式计算需求 。
  • 数据整合及管理体系“OneModel”是数据整合及管理的方法体系和工具 , 大数据工程师在这一体系下 , 构建统一、规范、可共享的全域数据体系 , 避免数据的冗余和重复建设 , 规避数据烟囱和不一致 , 充分发挥在大数据海量、多样性方面的独特优势 。 借助这一统一化数据整合及管理的方法体系 , 构建企业数据公共层 , 并可以帮助相似大数据项目快速落地实现 。
数据中台数据加工链路也是遵循业界的分层理念:包括操作数据层(ODS , Operational Data Store)、明细数据层(DWD , Data Warehouse Detail)、汇总数据层(DWS, Data Warehouse Summary)和应用数据层(ADS , Application Data Store) 。 通过数据中台不同层次之间的加工过程实现从数据资产向信息资产的转化 , 并且对整个过程进行有效的元数据管理及数据质量处理 。
下图展示数据公共层(ODS+DWD+DWS)与数据应用层(ADS)在数据分层中的位置:
【数据中台交付专家告诉你,数据架构的分层怎样更加合理?】
数据中台交付专家告诉你,数据架构的分层怎样更加合理?
本文插图
图:数据公共层与数据应用层关系
(1)统一数据基础层
我们通过各种方式采集到的丰富数据 , 在清洗、结构化后进入统一的ODS数据基础层 。
其主要功能包括:
  • 同步:结构化数据增量或全量同步到数据中台
  • 结构化:非结构化(日志)结构化处理并存储到数据中台
  • 累积历史、清洗:根据数据业务需求及稽核和审计要求保存历史数据、数据清洗
在权责方面 , 所有数据应该在源头统一 , 统一所有的数据基础层 , 并由一个团队负责和管控 , 其他团队无权复制数据基础层的数据 。


推荐阅读