大数据分析到底需要多少种工具( 四 )


■网友
  随着科技的发展,大数据时代已经来临,大数据已经进入我们的生活,与我们的生活息息相关了,学习大数据的人也随之增多,下面我要说的就是你学习大数据不得不知道的事情了,那就是大数据的分析工具,今天带大家认识一些学习大数据的分析工具。
  一、hadoop
Hadoop 是一个能够对大量数据进行分布式处理的软件框架。但是 Hadoop 是以一种可靠、高效、可伸缩的方式进行处理的。Hadoop 是可靠的, 因为它假设计算元素和存储会失败,因此它维护多个工作数据副本,确保能够针 对失败的节点重新分布处理。Hadoop 是高效的,因为它以并行的方式工作,通 过并行处理加快处理速度。Hadoop 还是可伸缩的,能够处理 PB 级数据。此 外,Hadoop 依赖于社区服务器,因此它的成本比较低,任何人都可以使用。 Hadoop 带有用 Java 语言编写的框架,因此运行在 Linux 生产平台上是非常理想的。Hadoop 上的应用程序也可以使用其他语言编写,比如 C++。
  二、HPCC
HPCC,High Performance Computing and Communications(高性
  能计算与通信)的缩写。1993 年,由美国科学、工程、技术联邦协调理事会向国
  会提交了“重大挑战项目:高性能计算与 通信”的报告,也就是被称为 HPCC 计划的报告,即美国总统科学战略项目,其目的是通过加强研究与开发解决一批 重要的科学与技术挑战问题。HPCC 是美国实施信息高速公路而上实施的计划, 该计划的实施将耗资百亿美元,其主要目标要达到:开发可扩展的计算系统及相 关软件,以支持太位级网络传输性能,开发千兆 比特网络技术,扩展研究和教 育机构及网络连接能力。
  三、Storm
Storm 是自由的开源软件,一个分布式的、容错的实时计算系统。Storm 可以非常可靠的处理庞大的数据流,用于处理 Hadoop 的批量数据。Storm 很 简单,支持许多种编程语言,使用起来非常有趣。Storm 由 Twitter 开源而来, 其它知名的应用企业包括 Groupon、淘宝、支付宝、阿里巴巴、乐元素、 Admaster 等等。
Storm 有许多应用领域:实时分析、在线机器学习、不停顿的计算、分 布式 RPC(远过程调用协议,一种通过网络从远程计算机程序上请求服务)、 ETL(Extraction-Transformation-Loading 的缩写,即数据抽取、转换和加载)等 等。Storm 的处理速度惊人:经测 试,每个节点每秒钟可以处理 100 万个数据 元组。Storm 是可扩展、容错,很容易设置和操作。
  四、Apache Drill
【大数据分析到底需要多少种工具】   为了帮助企业用户寻找更为有效、加快 Hadoop 数据查询的方法, Apache 软件基金会近日发起了一项名为“Drill”的开源项目。Apache Drill 实 现了 Google\u0026#39;s Dremel。该项目将会创建出开源版本的谷歌 Dremel Hadoop
  工具(谷歌使用该工具来为 Hadoop 数据分析工具的互联网应用提速)。而“Drill”
  将有助于Hadoop 用户实现更快查询海量数据集的目的。 通过开发“Drill”Apache 开源项目,组织机构将有望建立 Drill 所属的API 接口和灵活强大的体系架构,从而帮助支持广泛的数据源、数据格式和查询 语言。
  五、RapidMiner
RapidMiner 是世界领先的数据挖掘解决方案,在一个非常大的程度上 有着先进技术。它数据挖掘任务涉及范围广泛,包括各种数据艺术,能简化数据 挖掘过程的设计和评价。
  六、 Pentaho BI
Pentaho BI 平台不同于传统的 BI 产品,它是一个以流程为中心的, 面向解决方案(Solution)的框架。其目的在于将一系列企业级 BI 产品、开源软 件、API 等等组件集成起来,方便商务智能应用的开发。它的出现,使得一系列 的面向商务智能的独立产品如 Jfree、Quartz 等等,能够集成在一起,构成一项 项复杂的、完整的商务智能解决方案。


推荐阅读