人世繁华|一次简单、完整的全流程数据分析,让我们不再害怕Python

经常有人被Python数据分析库Pandas中大量的函数和复杂的参数用法给吓到 , 以至于学习了一段时间就放弃了 。
《Python学习方法:先生主干、再繁枝叶 , 任何领域都适用 》一文中其实已经说到了我们必须首先有一条学习的主干 , 在掌握了主干的基础上再去充分挖掘它的枝干 , 这样我们的学习就会更加有效且有信心 。
本文就是介绍Python进行数据分析的主干 , 让初学者了解到其原理并不复杂 , 掌握主干上的常用方法 , 慢慢就会进阶到熟练程度了 。 在下一篇文章我们将详细介绍Pandas库常用的函数 。
数据导入我们利用Python处理数据就首先得要将数据导入进Python内存中 , 导入的方式有很多种 , 但常见的是读取线下的Csv和Exce格式数据 , 爬虫获得数据 , 以及直接从数据库读取 。
pandas是做数据分析的标准库 , 首先加载这个库 。
import pandas as pd本文读取数据利用read_excel函数读取线下数据 。 该函数重点掌握三个参数 , 第一个为要读取文件的路径名称 , 如果是默认路径就直接名称 , 第二个为要读取哪个工作表 , 第三个为标题行的选择 。
data_raw=pd.read_excel("sale.xlsx",header=0 , header=0)另外 , 变量的命名一定要仔细斟酌 , 最好是不要太长 , 但意思又是能让人一目了然的 。 同时 , 对于读取的原始数据最好进行复制 , 避免后续操作出错后又需要重新读取数据 。 这个在原始数据量大时是非常耗时间的操作 。 所以 , 习惯性地进行原始数据复制 。
data=http://kandian.youth.cn/index/data_raw.copy() #原始数据的浅复制【人世繁华|一次简单、完整的全流程数据分析,让我们不再害怕Python】这时你就出现了一个枝干知识点 , 但别急于去研究什么是浅复制、深复制 , 刚开始知道这么做是有好处的就够了 , 留着疑问在后续去解决 。
数据探索拿到数据后 , 我们不要急于就去分析数据 , 而是要先看看数据的整体情况 , 掌握如下几种函数 。
data.info() #查询数据框的基本情况
人世繁华|一次简单、完整的全流程数据分析,让我们不再害怕Python这个函数可以告诉我们数据有多少行、哪些列 , 每列的数据类型和非空数 。
然后我们具体查看每行数据都是怎样的 , 看个前几行就可以了 。
data.head(n=5) #查看前n行数据,默认为5行
人世繁华|一次简单、完整的全流程数据分析,让我们不再害怕Python该函数可以自由调整参数的数量 , 但默认是看前五行的数据 。
数据处理假设我们的需求是要计算出每个团队在各产品上的销售总额和销售数量 。
在《数据分析工具Excel入门 , 你真的只需要掌握这两个函数就够了 》一文中也说到了 , 其实数据描述的根本就是统计和计数 , 能够掌握这方面的函数 , 那数据描述就算是基本没问题了 。
result=data.groupby(["团队ID","产品"])[["产品","销售额"]].agg({"产品":"count","销售额":"sum"})print(result)这个方法是万金油 , 一般的统计描述都可以解决 。 其中groupby是分组 , agg是聚合 。 我们进行统计无外乎就是先分组再聚合 , 所以理解了这个函数 , 那常规的统计都没问题了 。
这个函数统计出来的结果如下 。
人世繁华|一次简单、完整的全流程数据分析,让我们不再害怕Python这好像就是我们想要的结果了 , 但还有个小细节要处理 , 就是分组后的索引变成列 。


推荐阅读