数据中台交付专家告诉你,数据架构的分层怎样更加合理?
从整体上看 , 数据中台体系架构可分为:数据采集层、数据计算层、数据服务层三大层次 。 通过这三大层次对上层数据应用提供数据支撑 。
数据采集层
对于企业来说 , 每时每刻都在产生海量的数据 , 数据采集作为数据体系第一环尤为重要 。
因此在数据采集层需要建立了一套标准的数据采集体系方案 , 并致力全面、高性能、规范地完成海量数据的采集 , 将其传输到大数据平台 。
互联网日志采集体系包括两大体系:Web端日志采集技术方案;APP端日志采集技术方案 。
在采集技术之上 , 企业可以用面向各个场景的埋点规范 , 来满足日志数据打通等多种业务场景 。 同时 , 还可以建立了一套高性能、高可靠性的数据传输体系完成数据从生产业务端到大数据系统的传输;在传输方面 , 采集技术可既包括数据库的增量数据传输 , 也包括日志数据的传输;既需要能支持实时流式计算、也能实时各种时间窗口的批量计算 。 另一方面 , 也通过数据同步工具直连异构数据库(备库)来抽取各种时间窗口的数据 。
下图展示数据采集层在数据分层中的位置:
本文插图
数据计算层
从采集系统中收集了大量的原始数据后 , 数据只有被整合、计算才能被用于洞察商业规律、挖掘潜在信息 , 实现大数据价值 , 达到赋能商业、创造商业的目的 。 从采集系统中收集到的大量原始数据 , 将进入数据计算层中被进一步整合与计算 。
面对海量的数据和复杂的计算 , 数据计算层包括两大体系:数据存储及计算云平台和数据整合及管理体系 。
- 数据存储及计算云平台例如 , MaxCompute是阿里巴巴自主研发的离线大数据平台 , 其丰富的功能和强大的存储及计算能力使得企业的大数据有了强大的存储和计算引擎;StreamCompute是阿里巴巴自主研发的流式大数据平台 , 在内部较好地支持了企业流式计算需求 。
- 数据整合及管理体系“OneModel”是数据整合及管理的方法体系和工具 , 大数据工程师在这一体系下 , 构建统一、规范、可共享的全域数据体系 , 避免数据的冗余和重复建设 , 规避数据烟囱和不一致 , 充分发挥在大数据海量、多样性方面的独特优势 。 借助这一统一化数据整合及管理的方法体系 , 构建企业数据公共层 , 并可以帮助相似大数据项目快速落地实现 。
下图展示数据公共层(ODS+DWD+DWS)与数据应用层(ADS)在数据分层中的位置:
【数据中台交付专家告诉你,数据架构的分层怎样更加合理?】
本文插图
图:数据公共层与数据应用层关系
(1)统一数据基础层
我们通过各种方式采集到的丰富数据 , 在清洗、结构化后进入统一的ODS数据基础层 。
其主要功能包括:
- 同步:结构化数据增量或全量同步到数据中台
- 结构化:非结构化(日志)结构化处理并存储到数据中台
- 累积历史、清洗:根据数据业务需求及稽核和审计要求保存历史数据、数据清洗
推荐阅读
- Steam|B社宣布放弃自家游戏启动器!数据将转移至Steam平台
- 空中客车|空客A321大飞机首次在中国总装 四季度交付
- 比亚迪|1002台!比亚迪最大海外纯电大巴订单首批交付运营
- 苹果|数据、质保二选一?国内用户起诉苹果保修政策不合理
- 照片|面部识别公司声称要收集1000亿张照片:将记录全球每个人脸数据
- 丰田|史上最长交付!丰田:买新陆巡要等4年
- QQ|虚幻4数据包增大23MB!QQ推送安卓8.6.68内测版
- 电动车|元宇宙内自己造实车 这事真能成!A00级电动车 2023年交付
- 数据线|49元 魅蓝66W快充线发布:防弹丝编织+锌合金
- 飞机|我国首个自研大飞机!中国商飞副总:C919预计今年交付