什么是理想的数据中台架构( 二 )


什么是理想的数据中台架构

文章插图
图2:理想中的数据中台架构
数据中台包括哪些内容,做哪些事情,图2是笔者理想中的数据中台架构 。共分为五个大的功能组成 。
数据采集 。为数据中台提供汇集数据的能力,应提供统一的数据获取接入方式,数据来源包括内部数据和外部数据,数据类型应支持结构化和非结构化数据采集 。传统的ETL工具仍然可以复用,实现数据采集、转换、加载等关键处理过程 。采集方式上应能支持对周期性接口文件的批量采集,对产生频率高、实时性强的数据以数据流形式采集,针对企业外部互联网数据,使用网页爬虫自动抓取的方式采集 。
数据计算 。为数据中台提供统一的大数据计算能力,针对不同大数据处理场景,所需提供的数据计算能力也不同,一般主要包括批量离线计算(如MapReduce)、内存计算(如Spark、Ignite)、在线流式计算(如Storm、Samza、Spark Streaming、S4)等 。特别是人工智能技术的广泛发展和应用,基于大数据对机器学习算法模型的训练工具(如Mahout、Spark MLib、Caffe、Keras、TensorFlow)也可以归为数据计算工具的类别 。
数据存储 。数据中台中全域数据的存储中心,按照不同的数据类型,可以采用图2中一种或多种数据存储系统的“混搭”架构 。传统数据仓库(如DB2/ORACLE/Teradata)是最为成熟稳定的数据存储方式,承载着及时性、准确性要求高的企业核心应用 。分布式关系数据库,也常简称为MPP数据库,相较于传统的关系型数据库,具有高性能处理能力、高数据吞吐能力的优势 。NoSQL分布式数据库属于非关系型数据库管理系统,在大数据简单存取上具备关系型数据库无法比拟的性能优势 。分布式文件系统(HDFS)是当前最常见的大数据存储方式,它具极高的性价比,扩展性强 。数据湖作为一种新的存储大量复杂格式数据,避免企业数据孤岛化的数据架构方案,可用来将不同结构的数据统一聚合和存储 。
数据治理 。亦称之为数据资产管理,指的是为了实现对企业中数据资产价值的获取、管控、交付等目的,基于制定的数据规范,对数据资产所做的一系列管理活动 。数据标准管理指对数据口径、公共术语、参考数据、数据编码等制定和实施标准化的管理活动 。数据模型管理负责对系统中核心的逻辑模型、物理模型、数据库表、字段、视图等进行统一管控、促进其规范化 。元数据管理的作用是统一管理所有业务系统元数据,包括业务元数据、技术元数据、流程元数据和数据管理制度元数据 。数据质量管理,指运用质量管理技术稽核、度量、评估和改进数据的质量水平 。数据安全管理,指通过制定和执行数据安全政策和措施,为数据提供的认证、授权、审计等安全管理能力 。
数据服务 。包括了与业务相关的、可复用的一些公共技术组件或产品,如数据目录、数据标签、数据分析、数据开放接口、机器学习算法模型等,它们可以使用SAAS方式直接对外提供服务,也可以以更小粒度如API、消息接口、文件接口、服务接口、SDK软件包等方式只提供组件能力或数据服务,内部或外部第三方应用不必关心底层数据准备情况,直接调用数据服务模块对外提供的服务接口,就可以方便进行二次开发,借以增强自身的能力 。
以上五个功能部分中,数据采集、数据计算、数据存储三部分能力,企业已经都有现成的一些积累,不需要重复开发,只要合理规划进行统一,就很容易获取和建设起来 。数据治理的能力,常常分散在各个支撑系统中,需要统一抽取出来,对以前考虑不全的内容需要补充 。数据服务能力,则更多是与业务关联的、复用性较好的应用组件,需要企业长期提炼、积累和优化 。
结语
大数据时代,数据常被比作石油,数据中台的作用就是炼油厂 。在没有数据中台的时候,企业内部、外部数据不断积累,数据采集方式多种多样,数据计算、存储方式各自为政,数据治理只限于某些业务条线或主题域内数据,数据服务方式也是五花八门,造成了企业内部数据口径、数据模型、参考数据、质量标准、服务接口参差不齐,数据加工效率低下,极大制约了数据对应用的支撑能力 。有了数据中台,通过对海量数据进行统一采集、计算、存储、治理,进行标准化,形成对企业真正有价值的数据资产,才能为上层大数据应用提供高质量的数据服务 。数据中台,未来有望成为企业大数据核心能力掌控的重要抓手 。
CIO之家 www.ciozj.com 微信公众号:imciow

【什么是理想的数据中台架构】


推荐阅读