数据湖与实时数仓应用实践( 二 )


基于 Data Fabric 架构,数据可以分布在不同的位置和系统中,因此湖仓管理需要持有各种数据的源数据,以便能够更好地管理和查看数据 。这样可以提供更高阶的 view 视图 , 使用户能够更好地了解数据的整体情况 。
湖仓管理还提供了一些计算能力和开发套件 , 用于建模、数据质量、数据治理、调度和数据集成等方面 。例如,用户可以使用开发套件来建立模型、评估数据质量、制定数据治理策略、调度数据处理任务以及实现数据集成 。这些工具可以帮助用户更好地管理和利用数据资源 。
最高层的分析层主要解决如何建立各种指标,并通过自己的模型语言来管理这些指标,从而形成企业的数据资产 。用户可以使用分析层来定义和计算各种指标,例如销售额、用户增长率、市场份额等 。这些指标可以帮助企业更好地了解自己的业务状况,并制定相应的决策和战略 。

数据湖与实时数仓应用实践

文章插图
现代数据栈(MDS)是一个全流程架构的概念,它是可组装的而不是整体式的 。每个客户在使用平台时 , 并不需要使用所有的套件,因此 MDS 采用了可插拔的插件形式,根据客户的需求进行组装,实现了一种非大而全的平台 。这种可组装的方式可以降低企业的成本,并简化平台架构 。
MDS 的整个平台架构从数据源的数据拉取开始,包括实时和离线的数据采集和集成部分,然后将数据集成到数据湖和数据仓库中,形成湖仓一体的架构 。这个架构实现了数据的整合和统一管理,使得企业能够更好地利用数据资源 。
总的来说,MDS 是一个灵活可组装的数据架构 , 通过插件形式提供所需的功能,覆盖从数据源到数据湖和数据仓库的整个数据流程,帮助企业降低成本并简化平台架构 。
数据湖与实时数仓应用实践

文章插图
在存储底座中使用 DLink 套件时,数据开始进行开发,并在开发界面中进行相应的开发工作 。在数据开发过程中 , 数据治理是一个重要的环节 , 确保数据质量的高标准 。然后 , 数据进入到数据的分析与应用层 , 这是分析套件所要解决的问题 。分析套件提供了一系列工具和功能 , 帮助用户进行数据分析和应用开发 。
最底层是控制台,这是另一款产品,其主要解决的问题是对基础设施的计算资源和存储资源进行管理 。它还提供了监控和告警功能,以及对数据源的统一管理 。这个产品被称为 DCE(Data Control Engine),它的主要目标是管理和优化基础设施资源,确保系统的高效运行 。
数据湖与实时数仓应用实践

文章插图
产品的核心优势可以简单概括为四个方面 。首先是低成本,因为它可以完全分离地部署在各种公共云的对象存储上,同时也支持私有云的部署,比如在 IDC 里面可以对接传统的 HDFS 等 。其次是易用性,它提供了敏捷的数据开发能力,包括低代码指示和低代码开发等工具 。第三是可组装性,即根据需求选择自己的链路,这是基于现代数据栈(MDS)的思想,可以根据客户需求进行定制化部署 。最后是简单扩展性,它是从 Hadoop 生态的大数据平台向互联网一体的新一代大数据平台演进,同时也支持国产化新创,为用户提供更多的选择 。
概括而言,FastData 具有低成本、易用性、可组装和易扩展等核心优势,可以帮助企业更好地管理和利用数据资源,提高数据分析和应用的效率 。
数据湖与实时数仓应用实践

文章插图
FastData 分析套件主要用来处理指标,它采用了统一 ML(Model Language)模型语言来定义、管理和加工指标 。一旦指标加工好了,我们就可以将其存储在各种不同的存储介质中,包括开源存储和我们自己的湖仓引擎等 。这个分析套件主要关注指标层的存储和管理 , 而不关心指标具体存储在哪里 。
为了更好地服务于客户 , 我们还提供了各种各样的服务 , 包括对接各种 BI 工具、提供数据企业产品 API link 等 。客户可以通过这些服务来查询指标数据 , 进行各种数据分析和应用 。此外,我们还提供了 AI link 服务 , 客户可以通过数据科学和 Jupyter 等工具来访问指标数据,实现数据应用的开发和部署 。
FastData 分析套件统一的指标管理和加工方案,以及丰富的服务和工具,可以帮助客户更好地利用和应用数据资源,提高数据分析和应用的效率 。


推荐阅读