数据湖与实时数仓应用实践

 
一、Data Fabric 介绍首先,让我们来看一下 Data Fabric 的定义 。

数据湖与实时数仓应用实践

文章插图
Data Fabric 是一种新兴的数据管理设计理念 , 起源于美国 。根据 Gartner 的定义,Data Fabric 可以实现跨异构数据源的增强、数据集成和共享 。这意味着以前在构建数据仓库时需要进行大量的ETL工作,将不同业务关系数据库中的数据加载到数据仓库中,并通过各种链路进行数据同步 。然后,在数据仓库中进行分层加工,最终生成各种指标,供用户进行分析和生成报表 。
Data Fabric 的理念与传统的数据仓库有所不同 。在某些情况下,分析师可能并不需要将整个数据完全搬移到自己的工作环境中 , 而只需要进行简单的数据探查 。因此,Data Fabric 的概念就应运而生 。简单来说,Data Fabric 就是一种对企业内部数据进行轻量级探查的编织概念 。
数据湖与实时数仓应用实践

文章插图
基于Data Fabric 的理念,我们可以进行更加灵活和高效的数据分析 。自2019年起,Gartner 已经连续三年将 Data Fabric 技术列入十大数据分析技术趋势之一 。这表明 Data Fabric 技术正在逐渐成为数据管理和分析领域的重要趋势 。在2022年,Gartner 将 Data Fabric 技术列为数据管理和分析领域的排名第一的技术趋势 , 它的出现为企业提供了更加灵活和高效的数据管理和分析解决方案,因此备受关注和追捧 。
数据湖与实时数仓应用实践

文章插图
Data Fabric 的价值主要体现在降低成本和提高效率方面 。它可以帮助用户减少在数据开发、分析和管理过程中的工作量 , 避免频繁的数据迁移和复制 。那么,Data Fabric 实际上解决了什么问题呢?最主要的问题是打破数据孤岛 。通过将数据接入到统一的平台中,企业可以获得对整个企业内所有数据的高级视图,了解企业内部的数据在哪里、做什么用途 。此外,用户还可以进行简单的数据探查,而无需将数据全部迁移到数据仓库或数据湖中 。这样一来 , Data Fabric 为企业提供了更加综合和灵活的数据管理和探索方式,从而提高了数据分析的效率和准确性 。
数据湖与实时数仓应用实践

文章插图
现在硅谷流行一个概念——Lakehouse 数据湖 。数据湖和 Data Fabric 的理念密切相关 。数据湖强调存储的易用性,与传统的数据仓库不同 , 它对数据的存储和拉取要求不那么严格,数据的结构和格式也不需要遵循传统的范式结构化数据的要求 。这与数据仓库的要求有所不同,数据仓库要求数据必须遵循严格的范式结构,并需要进行各种加工处理 。因此,数据湖和Data Fabric的理念是密不可分的 。
目前 , 硅谷的一些头部互联网公司都推出了基于 Data Fabric 概念的产品 。例如微软在今年五月份推出了 Microsoft Fabric 和 OneLake 两款产品,它们共同组成了整个数据平台 。IBM 也在5月9日发布了基于 Data Fabric 理念的产品 Watsonx.data lakehouse,与其另一款产品 Cloud Pak for Data 相互关联,构建了一个从底层到开发应用的全数据加工平台 。微软的 Fabric 理念是"All your data, all your teams, all in one place" , 意味着所有数据都可以在一个平台上进行查看 , 但并不一定要将所有数据都搬到一个地方 。
二、FastData 实时智能湖仓平台介绍
数据湖与实时数仓应用实践

文章插图
滴普科技基于 Data Fabric 理念打造了一款产品,名为FastData 。该产品定位为一站式的实时智能数据湖平台,主要包含三个层次 。
首先是我们的 DLink 引擎,解决了在各种云基础设施上的存储和计算问题 。它有效地组织和存储数据,并提供了针对不同工作负载的计算能力 。在这一层之上 , 有开发套件和分析套件 。开发套件类似于数据开发中的工具箱,提供了调度、编辑器和工作流编排等功能 。而分析套件主要解决指标管理问题,更加面向业务,帮助管理各种非 SQL 方式的指标 。
数据湖与实时数仓应用实践

文章插图
湖仓部分是数据仓库架构中的一个重要组成部分,主要解决数据存储和计算的问题 。在数据仓库中 , 数据通常以表格形式存储,湖仓管理需要考虑如何存储和管理不同格式的数据表格,以及如何提供加速和管理源数据 。在存算分离的情况下 , 湖仓管理需要提供高效的数据访问和查询功能,以便用户能够快速获取所需的数据 。


推荐阅读