|面向初学者的数据分析知识,让你快速了解数据分析
编辑导语:大数据是互联网发展到一定阶段的必然产物 , 身处于大数据时代的我们每天都会活在一连串的数据里 。 因此 , 为了高效并合理地运用这些数据 , 数据分析行业迅速崛起 。 到现在 , 越来越多的人看到了数据分析的未来和前景 , 本文作者总结了初学者应该掌握的数据分析知识 , 帮助你快速掌握数据分析技巧 。
本文插图
一、什么是数据分析?
数据或信息只是一串原始的数字或字符 , 数据量的增加会导致各种需求的增加 。
比如我们需要对数据执行检查 , 进行数据清理 , 转换以及数据建模 , 通过这些方式来达到我们需要的目的 , 得出相应的结论 , 做出正确的决策——我们把这一系列过程称为数据分析 。
在统计应用中 , 数据分析可以又分为探索性数据分析(EDA)和验证性数据分析(CDA) 。 这二者的区别在于——EDA着重于发现数据中的新特征 , 而CDA着重于确认或否定现有的假设 。
探索性数据分析可以理解为一种用于找到数据间的模式相关性的分析 。 就像是“参考答案”的获取 , 这种“参考答案”有且不限于一个 。
场景包括典型的“啤酒尿布”这类数据挖掘应用 , 工具包括SAS、SPSS这类数据挖掘软件以及R语言这类语言工具 。
优点是有可能从一堆貌似杂乱无章的数据中找到一些相关性和模式来辅助决策;缺点是找到一些无意义的相关性 , 比如所有拥有结婚证的用户都结过婚 。
验证性数据分析是当你知道了用什么分析模型和算法 , 目前需要对已有的数据计算出响应结果 , 更类似一种“准确答案“的获取 。
应用场景就是基于多维数据仓库的OLAP分析应用 。 在企业应用最广泛的就是EPM(Enterprise Performance Management)包括全面预算 , 商业智能等应用 。
在企业应用最广泛的就是EPM(Enterprise Performance Management)包括全面预算 , 商业智能等应用 。
与"啤酒尿布”这种探索性数据挖掘应用相比 , OLAP分析的结果只能是唯一的准确答案 。
比如通过企业计算出的利润率只能是一个数字 , 任何一家企业都不可能得出“利润率有可能是13.2%”这样的答案 , 一旦确定了一个数字 , 那这个数字就必然只有对和错两种结果 , 不存在第三种的可能性 。
这类系统包括Oracle Hyperion、IBM Cognos以及智达方通Intcube EPM , 这些都是基于多维数据仓库的OLAP分析工具平台 。
二、数据分析的大致步骤
本文插图
1. 确立目标
无论何时发生任何需求 , 我们首先都需要确定业务目标 , 评估情况 , 确定数据挖掘目标 , 然后根据需求生成项目计划 。 在此阶段定义业务目标 。
2. 寻找数据
对于进一步的过程 , 我们需要收集初始数据 , 描述和探索数据 , 最后验证数据质量以确保它包含我们所需的数据 。 从各种来源收集的数据将根据其应用和此阶段对项目的需求进行描述 , 这也称为数据浏览 , 对于验证所收集数据的质量是必要的 。
3. 数据整理
从最后一步收集的数据中 , 我们需要根据需要选择数据 , 对其进行清理 , 构造以获取有用的信息 , 然后将其整合在一起 。
最后 , 我们需要格式化数据以获取适当的数据 。 选择数据 , 清理数据并将其集成为最终确定的格式 , 以便在此阶段进行分析 。
4. 数据建模
收集数据后 , 我们对其进行数据建模 。 为此 , 我们需要选择一种建模技术 , 生成测试设计 , 构建模型并评估构建的模型 。 建立数据模型以分析数据中各种选定对象之间的关系 , 建立测试用例以评估模型 , 并在此阶段对数据进行测试和实施 。
5. 数据评估
在这里 , 我们评估最后一步的结果 , 检查错误范围 , 并确定接下来要执行的步骤 。 我们评估测试用例的结果 , 并回顾此阶段的错误范围 。
6. 部署
我们需要计划部署 , 监视和维护 , 并生成最终报告并审查项目 。 在此阶段 , 我们将部署分析结果 , 这也称为审查项目 。
三、数据分析的四种类型
本文插图
1. 描述性分析
通过描述性分析这一手段 , 我们可以分析和描述数据的特征 。 这是一个处理信息汇总的好方法 。 描述性分析与视觉分析相结合 , 为我们提供了全面的数据结构 。
在描述性分析中 , 我们处理过去的数据以得出结论 , 并以仪表板的形式展现出来 。 在企业中 , 描述性分析多用于确定关键绩效指标或KPI以评估企业绩效 。
2. 预测分析
借助预测分析 , 我们可以确定未来的结果 。 基于对历史数据的分析 , 我们甚至可以预测未来 。 它利用描述性分析来生成有关未来的预测 , 借助技术进步和机器学习 , 能够获得有关未来的预测性见解 。
预测分析是一个复杂的领域 , 需要大量数据来熟练地执行预测模型及其调整从而获得较为准确的预测 , 这需要我们精通机器学习并开发有效的模型 。
3. 诊断分析
有时 , 企业需要对数据的性质进行批判性思考 , 并深入了解描述性分析 。 为了找到数据中的问题 , 我们需要对一些分析进行诊断 。
通过诊断分析 , 我们可以诊断通过数据显示的各种问题 。 企业使用此技术来减少损失并优化绩效 , 企业使用诊断分析的一些示例包括:
- 企业实施诊断分析以减少物流延迟并优化生产流程 。
- 借助销售领域的诊断分析 , 可以更新营销策略 , 否则将削弱总收入 。
规范分析结合了以上所有分析技术的见解吗 , 它被称为数据分析的最终领域 , 规范分析使公司可以根据这些数据结论制定相关决策 。
规范分析需要大量使用人工智能 , 以方便公司做出谨慎的业务决策 , 像Facebook、Netflix、Amazon和Google之类的大公司正在使用规范分析来制定关键业务决策 。
此外 , 金融机构也逐渐利用这种技术来增加进行决策 。
四、数据分析可能会用到哪些工具?
基于数据分析目前良好的发展前景 , 各界也出现了许多好用的功能种类丰富的数据分析工具 。 既有面向开源的又有用户友好型的 , 而以下这些工具是目前市面上比较常用且好评率较高的:
1. R
该工具是用于统计和数据建模的领先分析工具 。 R可以在UNIX、Windows和Mac OS等各种平台上编译和运行 , 它还提供了根据用户要求自动安装所有软件包的工具 。
2. Python
Python是一种开源的 , 面向对象的编程语言 , 易于阅读 , 编写和维护 。 它提供了各种机器学习和可视化库 , 例如 Scikit-learn、TensorFlow、Matplotlib、Pandas、Keras等 。
它还可以在任何平台上进行组装 , 例如SQL Server、MongoDB数据库或JSON 。
本文插图
3. Tableau
这是一个免费软件 , 可连接到任何数据源 , 例如Excel、公司数据仓库等 。 然后通过网络实时更新创建可视化效果、地图、仪表板等 。
本文插图
4. QlikView
该工具提供内存中数据处理 , 并将结果快速传递给最终用户 。 它还提供数据关联和数据可视化功能 , 数据压缩到其原始大小的近10% 。
5. SAS
一种用于数据处理和分析的编程语言和环境 , 该工具易于访问 , 并且可以分析来自不同来源的数据 。
6. Excel
此工具是数据分析中使用最广泛的工具之一 。 该工具通常用于客户的内部数据 , 它 通过透视表的预览来分析汇总数据的任务 。
7. RapidMiner
一个功能强大的集成平台 , 可以与任何数据源类型(例如Acess、Excel、Microsoft SQL、Tera数据、Oracle、Sybase等)集成 。 该工具主要用于预测分析 , 例如数据挖掘、文本分析、机器学习 。
8. KNIME
Konstanz Information Miner(KNIME)是一个开放源数据分析平台 , 可让您分析和建模数据 。 利用可视化编程的优势 , KNIME通过其模块化数据管道概念提供了一个报告和集成平台 。
本文插图
9. OpenRefine
也称为GoogleRefine , 此数据清理软件将帮助您清理数据以进行分析 , 用于清除凌乱的数据 , 转换数据以及从网站解析数据 。
10. Apache Spark
最大的大型数据处理引擎之一 , 该工具在Hadoop群集中执行应用程序的内存速度快100倍 , 磁盘速度快10倍 , 该工具在数据管道和机器学习模型开发中也很流行 。
五、数据分析历史故事分享
伦敦霍乱的数据追踪:
本文插图
图片来自网络
约翰·斯诺(John Snow)(不是权力游戏的角色)是一位英国医生 , 他使用数据收集和数据分析来追踪伦敦市中心霍乱暴发的根源 , 得出的结论是霍乱是由“水中的媒介”传播的” , 而不是通过“不良空气”传播的公认理论 。
斯诺利用数据收集来追踪霍乱的暴发 , 原因是两家自来水公司从泰晤士河中抽取了水 , 而这些水几乎没有经过过滤 。
他指出 , 一个巨大的双盲实验落入了他的大腿:
“不分男女 , 从各个年龄段 , 各个阶层 , 不同阶层 , 到三十万 , 从绅士到穷人分为两组 , 没有他们的选择 , 并且在大多数情况下 , 没有他们的知识;一组被供应含有伦敦污水的水 。 其中 , 任何可能来自霍乱患者的东西 , 另一组的水中完全不含这种杂质 。 ”
斯诺对后续数据和其他工作的分析导致伦敦和其他城市的水和废物管理发生根本变化 , 挽救了许多生命 , 并为全球公共卫生做出了重大贡献 。
六、如何成为一名数据分析师?
数据分析师收集 , 处理和执行大型数据集的分析 。 无论大小 , 每个企业都会生成并收集数据 , 这些数据可以采用客户反馈、客户、物流、市场研究等形式 。
我认为作为一名数据分析师 , 至少得具备以下这些技能:
- 数据分析师首要的就是用数字说话:因此很明显 , 数学是成为数据分析师的重要组成部分 , 线性代数和微积分的知识是将业务问题转换为数学表达式所必需的 。
- 概率和统计:这些事想要成为数据分析师的必备技能 , 为了得出准确的结论 , 我们需要知道事件发生的可能性 , 也就是概率 。 为了进行推论和解释数据 , 我们必须了解如何应用各种统计测试和技术 。
- 编程:绝对是数据分析的最重要组成部分之一 。 因此 , 学习一种或多种编程语言 , 例如Python、Java、SQL、R来进行数据管理和探索是必要的 。
从根本上讲 , 学习如何成为数据分析师与在任何行业中谋求职业生涯一样——努力工作与成功成正比 , 仅仅靠天赋是不够用的 。 一旦你成为了一名数据分析师 , 你将可能体验以下职责:
- 与技术团队 , 管理层和/或数据科学家一起制定目标;
- 从主要和次要来源挖掘数据;
- 清理和解剖数据以摆脱不相关的信息;
- 使用统计工具和技术分析和解释结果;
- 查明数据集中的趋势和模式;
- 确定新的流程改进机会;
- 提供管理数据报告;
- 设计 , 创建和维护数据库和数据系统;
- 解决代码问题和与数据有关的问题 。
本文由 @小陈同学 原创发布于人人都是产品经理 , 未经许可 , 禁止转载
【|面向初学者的数据分析知识,让你快速了解数据分析】题图来自 Pexels , 基于 CC0 协议
推荐阅读
- 养老金|2021年上半年办理退休,养老金核算的这些知识要把握
- 量化|量化大师麦教授:美好的不确定性
- 浪胃仙|泡泡龙的离世给所有吃播提了醒,浪胃仙顺势决定“转行”,新职业认真的吗?
- 脑梗死|脑梗死和喝酒有没有关系呢?爱喝酒的朋友,应该看看
- 米歇尔·戴斯玛克特|海奥华预言的真相,地球人被带到九级文明,揭开神话背后的秘密
- 减肥也能吃的小零食,营养美味,低脂低热量,多吃也不怕!
- 1碗面粉,不加水,锅里蒸一蒸,做香甜可口的发糕,比蛋糕还香
- 扇贝最好吃的做法,适合冬日里吃,做法简单好吃不腻,家人超爱吃
- 七种颜色的布丁吃过没有?软糯爽口,Q弹软糯
- 爱吃南瓜饼的收藏,外酥里嫩,香甜软糯,饭桌上必备,做法超简单
