数据交换过程详解( 二 )


4.数据交换破解“数据孤岛”4.1 数据标准
为保证各应用系统中的代码表对同一业务信息定义一致,确保数据消费系统可以根据业务代码辨别数据的确切业务含义,应提供可配置的功能,基于一定的标准对数据供应系统代码进行转换,使数据存储和数据消费系统按照统一标准来理解数据 。

数据交换过程详解

文章插图
 
数据交换离不开数据标准,数据未动标准先行是构建优质数据交换的前提 。但现实中许多企业没有做好数据标准,导致这些标准是在进行数据交换或数据采集的时候进行,影响了数据的质量 。一旦出现数据被篡改、被泄露等安全性问题,轻的影响业务开展,严重的泄露核心机密造成企业重大损失 。拷贝的数据难以控制准确性和合规性,拷贝的数据流向哪里也无法控制,是谁拷贝了信息也无法掌控 。一旦出现信息泄露,无法追责 。
统一指标数据标准,可以规范业务统计分析语言,帮助企业提升分析应用和监管报送的数据质量,进而提高全行数据质量和数据资产价值 。
4.2 自动采集元数据
数据交换依托于元数据,数据交换的本质是基于元数据的交换 。对半结构化和结构化数据自动采集 。
数据交换过程详解

文章插图
 
元数据是关于数据、操纵数据的数据和数据库系统的结构和意义的描述信息,重要目标就是提供数据资源的全面指南 。元数据不仅定义了数据交换中的数据模式、来源以及抽取转换规则等,而且整个数据交换系统的运行都应该是基于元数据的,是元数据把数据交换系统中各个松散的组件联系起来,组成了一个有机的整体 。
通过自动化的元数据采集完成部门核心职能的业务梳理及其对应的信息资源梳理,编制部门信息资源目录,摸清信息资源有什么、在哪里,提高信息资源共享程度,建立信息资源共享机制和管理制度 。结合企业内部信息系统中的数据现状和企业业务属性、技术属性的要求形成企业数据标准的业务属性和技术属性,制定有效合理的指标数据规范要求 。
4.3 数据交换方式和方法
4.3.1 不同类型数据交换方式
新的数据交换平台提供数据、报文文件等多种数据交换服务,能够快速建立跨硬件平台、数据库和操作系统的可交互操作的数据交换与信息共享平台,交换平台提供了一个开放的环境,支持多样的客户机、数据库、网络和通讯协议,通过可视化配置实现与数据库、文件以及web接口的数据交互 。使得数据交换与业务逻辑的个性有机结合,快速响应数据集成和外部数据交换的需求 。
数据交换过程详解

文章插图
 
数据交换的方式一般是根据数据的类型来进行区分,如结构化或半结构化的数据可通过ETL的数据交换方式进行,非结构化的数据像压缩文件、电影、图片等采用文件传输的方式进行交换,而对于一些实时性较高的交换一般采用接口形式进行 。例如:restfull、webservice等 。
结构化数据交换方法
结构化和半结构化数据交换主要有:时间戳同步、全文比对同步、触发器同步、CDC增量同步、全量同步 。
数据交换过程详解

文章插图
 
这里我们对几种做一个比较:
  • 全量同步
全量抽取一般适用于统计分析或无需进行二次更新的业务需求,通过全量抽取一次或多次将业务系统数据源在不做任何操作的情况下直接抽取过来,全量数据抽取方式虽然较简单、直接、快速 。通过系统中的采集组件,无需增加过滤条件,即可对数据库中的全量文件进行一次性采集 。全量采集比较适合于数据业务量小的业务需求 。这种方式不能增量的进行数据同步,对于大数据量下的同步并不适用 。
  • 时间戳同步
使用这种方式进行增量数据抽取的前提是源数据库与目标数据库都必须有时间戳字段 。先读取目标数据库中的最大时间,然后以这个时间作为参数从源数据库中读取大于这个时间的所有数据 。
基于时间戳的方法需要相关应用系统中的每个表中都有一个时间戳字段,以记录每个表的修改时间 。这种方法不影响原有应用的运行效率,但如果表中没有时间戳的字段却需要对原有系统做较大的调整,这种方式不能捕获到那些并非通过应用系统引起的操作数据变化 。


推荐阅读