什么是大数据时代(大数据的主要特征是什么)( 二 )


什么是大数据时代(大数据的主要特征是什么)

文章插图
08.什么是数据集成?由于开发部门或开发时间的不同,企业中往往有很多异构数据库运行在不同的软硬件平台上 。这些数据库相互独立、相互阻隔,使得系统之间难以进行数据交换和共享,从而形成“信息孤岛” 。随着信息技术应用的深入,企业、企业与外界的信息交互需求日益强烈 。整合现有数据,买断“信息孤岛”刻不容缓,这就是数据整合的意义所在 。
数据集成是将不同来源、类型和模式的数据进行物理或逻辑上的集中,为企业提供全面的数据共享 。数据集成的重要问题是各种数据源的异构性,包括数据库、通信协议、数据类型和数据值的异构性 。
09.什么是数据清洗?数据清理是一种消除错误数据和重复数据的技能 。数据清理后,可以保存在原数据库中,也可以与数据集成联系,最终保存在集成数据库中 。
举几个数据清理的例子:
1.在用户信息表单中,有五个必填字段:姓名、性别、地址、手机和电子邮件地址 。有些用户缺少某些字段的值,所以他们需要弥补这些数据 。
2.英文名字要求有空大小写,而有些名字没有空大小写,比如“JohnSmith”,所以需要修改这类缺陷 。
3.有些数据表的货币单位是人民币,有些数据表的货币单位是万元,所以数据集成时需要统一单位 。
4.这两个用户记录完整且重复,需要复制 。
10.什么是ETL?ETL是抽取、转换和加载的缩写,指的是数据抽取、转换和加载的过程 。
数据抽取是从不同的数据源获取我们需要的数据的过程 。类似于数据集成的概念,这个过程经常会做一些数据清理和数据转换 。数据转换的义务是转换数据模式和计算一些业务规则 。数据加载通常是指在数据清理和数据转换完成后写入目标数据库 。
什么是大数据时代(大数据的主要特征是什么)

文章插图
11.什么是数据剖析?数据分析是收集、整理、处理和分析数据,最终根据业务需求提炼有价值信息的过程 。
数据分析的四个步骤:
需求分析,了解目的;
数据收集、处理和处置;
数据挖掘和数据显示;
分析报告并提炼价值 。
什么是大数据时代(大数据的主要特征是什么)

文章插图
12.什么是数据埋点?所谓数据嵌入点,就是从应用的具体过程中收集一些信息,跟踪用户应用的状态,并利用它为运营提供数据支持,进一步优化产品 。
常见信息包括独立访问者数量(UV)、页面阅读量(PV)、页面停留时间、页面跳出率、交互元素的点击事件等 。
隐藏数据通常有两种方式:
第一是R&D团队将代码注入产品,搭建响应查询平台;
二是使用第三方数据嵌入工具,如厕神数据、百度统计等 。
13.什么是数据仓库?数据仓库(简称DW)是一个存储大量数据的集成中心 。数据仓库的目标是建立一个面向分析的集成数据环境,为企业提供决策支持 。它为企业提供一定的商业智能人才,指出业务流程改进,监督时间、成本、质量和掌握情况 。
数据仓库的输入是多种数据源,最终输出用于企业的数据分析、数据挖掘、数据报表等方向 。
14.什么是数据集市?数据仓库是面向所有企业的,而数据集市是面向部门的,因此范围更小,由业务部门设计、开发、管理和保护,可以理解为数据库的子集 。
数据市场就像宜家楼上的家居展厅,就像它的名字“市场”一样,是面向终端客户的数据市场 。在这里,数据(家具)以更容易被客户接收的方式组合 。客户的需求分为场景,如客厅、书房、卧室、厨房等 。,所以我们需要创建多个数据集市(展厅) 。
什么是大数据时代(大数据的主要特征是什么)

文章插图
15.什么是数据湖?到目前为止,还没有一个特殊尺度的数据湖概念 。更统一的是,数据湖存储未经处理的原始数据,包括结构化和非结构化数据 。数据湖是存储企业所有原始数据的存储器,这些原始数据的管理更加复杂 。
以宜家为例,数据湖的原始数据相当于拆解的零件,顾客可以根据实际需求选择零件,自行组装 。
16.什么是数据发掘?数据挖掘是提取隐藏在大量实际应用数据中的有价值信息的过程 。
一般来说,数据挖掘分为两类:一类是监督学习,另一类是无监督学习 。监控就是学习客观需求的概念,通过建立模型,实现从检验变量到客观需求的有效解释 。无监督学习没有明确的识别变量来表达目的要求,重要的义务是探索数据之间的内在联系和构建 。


推荐阅读