大数据|何为大数据技术?大数据技术发展历程

大数据发展到今天 , 通常来说有两层含义 , 海量的数据集合以及对海量数据集合进行处理的大数据技术 。海量的数据集合 , 这个非常好理解 , 就是不断累积起来的数据资源 , 而大数据技术又是指什么呢?何为大数据技术 , 今天我们来对大数据技术发展历程做个简单的介绍 。
【大数据|何为大数据技术?大数据技术发展历程】从定义来说 , 大数据技术是指从各种各样类型的巨量数据中 , 快速获得有价值信息的技术 。在行业当中的大数据研发者们 , 就是致力于将大数据技术应用到相关领域 , 从巨量数据从中获取有价值的信息 。
大数据|何为大数据技术?大数据技术发展历程
文章图片

文章图片

我们对大数据技术的认知 , 通常包括采集数据的工具、平台和数据分析系统等 。
最早的第一代大数据技术框架 , 是Doug Cutting参考谷歌在2003年发表的Google File System论文 , 建立了Hadoop开源项目 , 并于2006年贡献给Apache基金会 , 用来构建大规模搜索引擎和解决大规模的数据存储和离线计算的难题 。
首先诞生的是分布式文件系统HDFS和分布式计算框架MapReduce 。随后在2007年 , Facebook开发了Hive , 可以使用类SQL语言查询存放在HDFS上的数据 , PowerSet公司开发了分布式NoSQL数据库HBase 。
从2006到2009年这个阶段 , 以MapReduce计算框架为代表 , 大数据技术在大型互联网企业被广泛应用于大规模结构化数据的批处理 , 具体的应用场景是做日志分析和用户行为分析等 。这个阶段我们称之为大数据的1.0时代 。
大数据|何为大数据技术?大数据技术发展历程
文章图片

文章图片

大数据进入2.0时代的标志 , 是Spark核心计算引擎的出现 。
由于MapReduce在要求短时间响应的交互式分析场景下表现不好 , 以Spark和Flink为代表的新计算引擎出现并广泛使用 。这个阶段有三个重要变化:
一是大数据业务更多转为结构化数据处理等价值密度更高的计算 , 所有的大数据公司开始在Hadoop之上打造SQL引擎或分布数据库 。2012年开始到随后两年中出现20多个基于Hadoop的SQL引擎 , 包括Impala、Spark SQL等 , 以及星环的Inceptor , 以解决结构化数据问题;
二是实时数据处理方面 , 大量的实时数据需要及时处理 , 到2015年 , Flink、Beam、Spark Streaming等开源技术涌现 , 而商业化的流计算引擎如星环Slipstream的发展也如火如荼 , 相比开源的流引擎能够提供更多的产品能力 , 包括数据不丢不重、安全、SQL引擎等能力;
此外 , 非结构化的处理技术随着数据科学技术的发展而兴起 , 非结构化文档数据处理、图分析技术也逐渐兴起 。
随着企业的数据量越来越大 , 数据业务的多样性和复杂性增加 , 在数据存储、计算和数据业务打通方面的挑战也越来越大 。
关于何为大数据技术 , 大数据技术发展历程 , 以上就为大家做了一个简单的介绍了 。大数据技术的发展 , 是随着大数据的发展在不断更新迭代的 , 作为技术开发者 , 保持学习 , 跟上最新技术趋势 , 是基本的素养 。


    推荐阅读