大数据分析到底需要多少种工具( 三 )


3、Swiff Chart软件:制作图表的软件,生成的是Flash

■网友

大数据分析到底需要多少种工具

大数据分析的前瞻性使得很多公司以及企业都开始使用大数据分析对公司的决策做出帮助,而大数据分析是去分析海量的数据,所以就不得不借助一些工具去分析大数据,。一般来说,数据分析工作中都是有很多层次的,这些层次分别是数据存储层、数据报表层、数据分析层、数据展现层。对于不同的层次是有不同的工具进行工作的。下面小编就对大数据分析工具给大家好好介绍一下。
首先我们从数据存储来讲数据分析的工具。我们在分析数据的时候首先需要存储数据,数据的存储是一个非常重要的事情,如果懂得数据库技术,并且能够操作好数据库技术,这就能够提高数据分析的效率。而数据存储的工具主要是以下的工具。
1、MySQL数据库,这个对于部门级或者互联网的数据库应用是必要的,这个时候关键掌握数据库的库结构和SQL语言的数据查询能力。
2、SQL Server的最新版本,对中小企业,一些大型企业也可以采用SQL Server数据库,其实这个时候本身除了数据存储,也包括了数据报表和数据分析了,甚至数据挖掘工具都在其中了。
3、DB2,Oracle数据库都是大型数据库了,主要是企业级,特别是大型企业或者对数据海量存储需求的就是必须的了,一般大型数据库公司都提供非常好的数据整合应用平台;
接着说数据报表层。一般来说,当企业存储了数据后,首先要解决报表的问题。解决报表的问题才能够正确的分析好数据库。关于数据报表所用到的数据分析工具就是以下的工具。
1、Crystal Report水晶报表,Bill报表,这都是全球最流行的报表工具,非常规范的报表设计思想,早期商业智能其实大部分人的理解就是报表系统,不借助IT技术人员就可以获取企业各种信息——报表。
2、Tableau软件,这个软件是近年来非常棒的一个软件,当然它已经不是单纯的数据报表软件了,而是更为可视化的数据分析软件,因为很多人经常用它来从数据库中进行报表和可视化分析。
第三说的是数据分析层。这个层其实有很多分析工具,当然我们最常用的就是Excel,我经常用的就是统计分析和数据挖掘工具;
1、Excel软件,首先版本越高越好用这是肯定的;当然对Excel来讲很多人只是掌握了5%Excel功能,Excel功能非常强大,甚至可以完成所有的统计分析工作!但是我也常说,有能力把Excel玩成统计工具不如专门学会统计软件;
2、SPSS软件:当前版本是18,名字也改成了PASW Statistics;我从3.0开始Dos环境下编程分析,到现在版本的变迁也可以看出SPSS社会科学统计软件包的变化,从重视医学、化学等开始越来越重视商业分析,现在已经成为了预测分析软件。
最后说表现层的软件。一般来说表现层的软件都是很实用的工具。表现层的软件就是下面提到的内容。
1、PowerPoint软件:大部分人都是用PPT写报告。
2、Visio、SmartDraw软件:这些都是非常好用的流程图、营销图表、地图等,而且从这里可以得到很多零件;
3、Swiff Chart软件:制作图表的软件,生成的是Flash。

■网友
从09年开始,放弃掉之前做的前端的工作,依然从事大数据相关的行业,对大数据工具还有一些了解。说说我工作的的这些年使用的一些大数据工具吧。当然不一定完全正确,还请您批评指正。大数据如今已经不再是什么新的名词,五中全会大数据上升为国家战略,BAT巨头早已布局多年,大数据时代已经真正来临,但我们真的准备好了么?大家都知道大数据中蕴含大量的数据价值,比如说淘宝与天猫的用户消费行为、滴滴打车可以知道用户每天去了哪里、用户在优酷上都看了那些视频、移动运营商的 海量客户终端信息以及上网行为等、大型零售商每天的销售数据,订餐网上用户每天吃了什么,等等大数据金矿无处不在。但淘出来的才是金子,否则只是一堆土而 已,即占用场地,还要花钱去保管和维护这堆土。大数据时代金矿已经有了,如何利用好这个金矿,某种意义上取决于我们手上的工具。熟话说“没有那金刚钻,就别揽瓷器活”,工具是否适用,直接决定着我们能否进行挖金,以及挖金的速度与效率。适合用铁锹还是挖掘机,对挖金来说有着质的不同。第一个金刚钻HadoopHadoop是大数据时代的第一个金刚钻。笔者从08年开始研究hadoop源码,当时中文资料还是比较少的,国内除了BAT外其他公司用的也很少,初次 接触hadoop是因为被当时公司的流量系统所困扰,当时公司网站的流量已经达到了每天接近一个亿的水平,最初选择了postgresql来计算数据,但 是普通机器根本无法计算,无奈之下我们花大价钱买了128G内存(在当时是很奢侈的)的服务器,运行在postgresql的内存表里才勉勉强强的计算出 来。直到有一天遇到了hadoop,你懂的,一个HiveSql在几台普通硬件的机器上,一亿数据几个小时就出结果了。如今Hadoop已经不再神秘,相关书籍越来越多。但是伴随着互联网技术的日新月异,Hadoop已经不能满足用户了。数据时效性差,以及查询的响应效率 低,那些对时效性要求较高的用户场景无法满足。Hadoo目前面临两两方面的挑战,第一,数据从产生到能够最终出结果要等待数小时,时效性较差。第二,多 个Job任务,相互之间争抢资源,而且由于采用暴力扫描原始数据的方式,对机器资源的消耗太大,每天能够跑的计算任务个数十分有限。第二个利器阿里JStormJStorm的出现主要是因为Hadoop满足不了支付宝成交实时分析的需求。阿里的双十一活动以及其他活动都有对阿里网站成交流量实时展示的需求,通过 运营活动,来了解开始的几分钟或者几秒钟内,实时流入了多少的流量,带来多大的成交。正巧当时Apache Storm正式开源,阿里团队认为Storm正适合阿里的业务,但是Storm的核心逻辑采用Clojure编写,熟悉这门语言的太少,另外业务需要定制 化的逻辑,故阿里团队花费3个多月的时间阅读Storm的源码,并将其Clojure部分更换为Java代码。笔者曾是团队的一员,有幸成为其 committer,离开阿里后,团队其他兄弟将其开源,贡献了出去,如今Jstorm已经被Apache接受,正式成为Storm项目的子项目。Storm能够满足企业对数据时效性的要求,但跟现有的其他大数据的实时系统一样,都是采用预计算的方式。因流式系统不保存原始日志,数据只能安装固定的 维度和粒度进行计算与汇总,例如只能按照淘宝的类目、分钟等维度汇总统计。众所周知,运营情况是千遍万化的,很多都是突发事件,维度并不能预先固定,很多 事物也需要多方面展示,要经过数次的不同角度、不同粒度的钻取,来发现运营活动的规律。基于这种场景,我们需要保留原始日志,同时需要非常快速的对这些原 始日志进行快分析与计算。这样高需求的场景,数据工具既要有hadoop+hive计算的灵活性,又要有Jstorm的时效性和速度。Storm就显出了 它的不足。新生代数据挖掘机延云YDBYDB是延云针对用户对大数据检索快速、实时、多维度的需求而开发的分析软件,可以说是笔者的心头好。YDB将传统数据库索引技术应用在大数据技术上,打破目前大数据计算技术的僵局。将大数据检索向时效性更强,查询方式更 灵活,执行效率更高的方向演进。虽然引用传统索引技术,但是对硬件的需求并不比hadoop高,不会让小型用户望而却步。技术上YDB采用Java语言编 写,接地气,Sql接口用户也更易于上手使用,同时每天千亿增量万亿总量的数据量也能满足高端用户的需求。YDB主要技术方向在大索引,大索引的好处在于 加快了检索的速度,减少查询中的分组、统计和排序时间,提高系统的性能和响应时间来节约资源。大索引技术的运用才能使YDB在如此大规模的数据量下依然保 持查询响应时间在几秒,数据导入延迟在几分钟。大数据时代拼的不仅仅是数据量有多大,还要拼速度,拼谁的更快、更准、成本更低。大数据的运用领域还在不断的扩张,大索引技术还有很长的路要走。终有一天大数据会带给我们震撼世界的影响。


推荐阅读