[]学会这个最基础的统计学知识,数据分析专业度提升一大截


做数据分析统计学知识是必不可少的 , 统计学是数据分析的基石 。 统计学是一种利用数学理论来进行数据分析的技术 , 通过统计学我们可以用更富有信息驱动力和针对性的方式去对数据进行操作 , 从而使得我们的分析结果更加专业 。 今天我就来说说数据分析中最基础的统计学知识:描述统计
什么是描述性统计?
我们在做了相关的数据统计之后 , 将会收集到一系列复杂的数据信息 , 在这种情况下 , 仅仅单靠“看”数据 , 会让人一脸茫然 。 这时候就需要用描述性统计分析来了解数据的大致情况 。
描述性统计要就是对调查总体所有变量的有关数据做统计性描述 , 主要包括数据的频数分析、数据的集中趋势分析、数据离散程度分析、数据的分布、以及一些基本的统计图形 。
[]学会这个最基础的统计学知识,数据分析专业度提升一大截
本文插图

常用的指标有均值、中位数、众数、方差、标准差等等 。 数据的集中趋势一般采用平均值、中位数表示 。 数据的离散程度一般采用方差、标准差表示 。 数据的分布情况一般采用直方图表示 。
几个重要指标
1、众数
一组数据中出现最多的变量即为众数 。
比如一组数据:西瓜、西瓜、南瓜、西瓜、冬瓜、苹果、苹果 , 其众数自然就是西瓜 , 在数据量比较大时可以借助统计软件进行计算 , excel中函数为mode , python中暂时没有实现众数的函数 , 但可以曲线救国 。
2、均值
平均值这个大家都知道就是计算一组数据的平均值 , 了解这组数据的平均水平 。 在使用均值分析的过程中要注意 , 平均值非常容易受极值的影响 , 当数据集中出现极值时 , 呈现的平均水平结果就可能会出现不客观的现象 。 比如拿你的收入和马化腾、马云的收入放在一起算平均值 , 得出来的结果肯定不能代表你们三个平均收入水平 。
3、中位数
将一组数据按照从小到大的顺序排列时 , 最中间的数据就是中位数 。 当数据个数为奇数时 , 中位数即最中间的数 , 当数据个数为偶数时 , 中位数为中间两个数的平均值 。 中位数不受极值影响 , 因此对极值缺乏敏感性 。
4、分位数
中位数从中间点将全部数据等分为两部分 。 与中位数类似的还有四分位数、十分位数和百分位数等 。 它们分别是用3个点、9个点和99个点将数据4等分、10等分和100等分后各分位点上的值 。 这里简单介绍一下比较常见的四分位数的使用方法:
四分位数是指在把所有数值由小到大排列并分成四等份 , 处于三个分割点位置的数值 , 分割后我们会通过5个数值来描述数据的整体分布情况 。

  • 下界:最小值 , 即第0%位置的数值;
  • 下四分位数:Q1 , 即第25%位置的数值;
  • 中位数:Q2 , 即第50%位置的数值;
  • 上四分位数:Q3 , 即第75%位置的数值;
  • 上界:最大值 , 即第100%位置的数值 。
优点是可以用来对比不同类别数据的整体情况 , 还可以识别出可能的异常值 。 缺点是无法反映数据的波动大小
计算方式:
①先求出中位数Q2:
首先我们要将所有数值以从小到大 , 从左到右的顺序进行排序 , 假设有n个数如果n是奇数 , 中位数就是位于中间位置的数值 。 如果n是偶数 , 中位数则是中间两个数的平均值 。
[]学会这个最基础的统计学知识,数据分析专业度提升一大截
本文插图

②求出下四分位数和上四分位数:
[]学会这个最基础的统计学知识,数据分析专业度提升一大截
本文插图

下四分位数Q1的位置=(n+1)x0.25;上四分位数Q1的位置=(n+1)x0.75
举个例子:
我们根据下面的数据 , 分析一下就餐人员距离的问题 。


推荐阅读