什么是大数据时代(大数据的主要特征是什么)
文章插图
01.什么是大数据?数据是记录客观事实的符号,可以是数字、文字、图片、音频、视频 。大数据是指常规软件无法在一定时间尺度内捕获、管理和收集的数据聚合 。
大数据具有“5V”的特点,即数据量大、数据多样性、价值密度低、增长快、数据质量低 。
大数据时期强调的是整体数据,而不是局部样本数据 。由于大数据的价值密度低,我们不得不接受这种模糊性和不准确性 。通过对数据的研究,我们发明了以前从未发明过的联系,而不是像小数据时期那样先做假设,再用数据验证 。也就是说,在大数据时代,一致性比因果关系更重要 。
02.什么是构造化和非构造化数据?结构化数据是适合在二维表格中显示的数据 。每行是一条记录,每列是一个不同的字段 。
以电子商务网站为例,用户信息可以用结构化数据存储 。每个用户都是一条记录,每个用户都有姓名、性别、地址、手机、邮箱等字段,这样就形成了一个二维表格 。
文章插图
非结构化数据不适合在二维表格中显示,如文档、图片、音频、视频等 。非结构化数据的模式多种多样,难以扩展和理解,因此在存储、检索和应用方面需要更有效的方法和技巧 。
03.什么是数据库?从字面上看,数据库是存储数据的地方,但数据的存储不是混乱的,而是按照一定的规则进行的,具有共享、易管理的特点 。数据库被认为是一个电子文件柜 。用户可以添加、删除、修改和检查数据库中的数据 。
数据库可以分为关系数据库、非关系数据库、数据仓库等类型 。
04.什么是关系型数据库?关系数据库是指使用关系模型来组织数据的数据库 。关系模型可以简单理解为二维表模型,以行和列的形式存储数据,因此适合存储结构化数据 。关系数据库是由多个二维表及其关系组成的数据库 。
常见的关系数据库包括MySQL、SQL Server、PostgreSQL、Oracle等 。
以电商网站为例,除了用户信息,产品信息和订单信息也要记录 。为简单起见,每个订单仅包含一种产品 。产品包含名称、价格、图片、介绍等字段 。订单包含用户、相关产品、订单号、订单价格、订单时间等字段 。一个用户拥有一个或多个订单,一个产品也属于一个或多个订单,从而建立了用户、订单和产品之间的关系 。
文章插图
05.什么是非关系型数据库?与关系型数据库相比,非关系型数据库摒弃了固定的二维表结构,存储机制聪明,比如键值对、文档、图形等模式都可以存储 。
常见的非关系数据库包括Redis、MongoDB、Cassandra等 。
性能是非关系数据库的最大优势 。由于关系数据库中的关系模型会占用90%的硬件资源和计算时间,对于大量不需要关系功效的数据处理,非关系数据库的性能非常高 。
另一方面,正是因为数据表之间缺乏关系,非关系数据库很难在多个表之间进行非常复杂的数据查询 。
06.什么是时序数据库?时间序列数据库是一种特殊的非关系数据库,它的全称是时间序列数据库 。经过讨论和发现,机器设备、传感器、系统日志等产生的数据 。具有以下显著特征:
数据是时序的,即按照一定的时序生成;
很少更新或删除数据;
数据出现频率快,数据信息量大;
数据通常携带状态信息 。
传统的关系数据库或非关系数据库对于这类数据的性能提升极其有限,只能依靠集群技能,投入更多的计算资源和存储资源来处置,导致企业运营成本急剧增加 。然而,时间序列数据库可以有效地处理海量数据 。通过创新的列存储和先进的压缩算法,应用的计算资源不到传统方案的1/5,存储空不到一般数据库的1/10 。
常见的时间序列数据库包括InfluxDB等 。
07.什么是散布式存储?分布式存储相对于集中式存储而言 。分布式存储由规模服务器(硬件)和分布式文件系统(软件)组成,可扩展到数千个硬件节点,支持数据块存储、对象存储、文件存储等多种类型的统一管理 。
常见的分布式文件系统包括HDFS、Ceph、GFS、GPFS、Swift等 。
举个容易理解的例子,如果把存储比作一辆马车,把数据比作货物 。在集中仓储计划下,如果想拉更多的货,只能换更大的车厢 。而分布式存储计划,则足以直接增长车厢 。有了分布式存储的技能,存储EB级别的海量数据库就没有问题了(1EB = 1024 Pb = 1024 * 1024 TB = 1024 * 1024 GB) 。
推荐阅读
- 奶盖怎么喝图解
- 大S|大S深夜发律师函!突然反悔拒绝让孩子回北京,汪小菲开播痛骂
- 如何上facebook(上twitter用什么加速器)
- 如何一年赚100万(干什么最赚钱一年赚百万)
- 如何一个月瘦大腿(一个月瘦腿的最快方法)
- 如何z(yz)
- 如何cad制图(cad图纸怎么学)
- 如何5天内快速减大腿(瘦大腿的方法适合学生的)
- 如何4k对齐(4k对齐是什么意思?)
- 好看的小说有哪些(2021十大必看网络小说)