[]学会这个最基础的统计学知识,数据分析专业度提升一大截
做数据分析统计学知识是必不可少的 , 统计学是数据分析的基石 。 统计学是一种利用数学理论来进行数据分析的技术 , 通过统计学我们可以用更富有信息驱动力和针对性的方式去对数据进行操作 , 从而使得我们的分析结果更加专业 。 今天我就来说说数据分析中最基础的统计学知识:描述统计
什么是描述性统计?
我们在做了相关的数据统计之后 , 将会收集到一系列复杂的数据信息 , 在这种情况下 , 仅仅单靠“看”数据 , 会让人一脸茫然 。 这时候就需要用描述性统计分析来了解数据的大致情况 。
描述性统计要就是对调查总体所有变量的有关数据做统计性描述 , 主要包括数据的频数分析、数据的集中趋势分析、数据离散程度分析、数据的分布、以及一些基本的统计图形 。
本文插图
常用的指标有均值、中位数、众数、方差、标准差等等 。 数据的集中趋势一般采用平均值、中位数表示 。 数据的离散程度一般采用方差、标准差表示 。 数据的分布情况一般采用直方图表示 。
几个重要指标
1、众数
一组数据中出现最多的变量即为众数 。
比如一组数据:西瓜、西瓜、南瓜、西瓜、冬瓜、苹果、苹果 , 其众数自然就是西瓜 , 在数据量比较大时可以借助统计软件进行计算 , excel中函数为mode , python中暂时没有实现众数的函数 , 但可以曲线救国 。
2、均值
平均值这个大家都知道就是计算一组数据的平均值 , 了解这组数据的平均水平 。 在使用均值分析的过程中要注意 , 平均值非常容易受极值的影响 , 当数据集中出现极值时 , 呈现的平均水平结果就可能会出现不客观的现象 。 比如拿你的收入和马化腾、马云的收入放在一起算平均值 , 得出来的结果肯定不能代表你们三个平均收入水平 。
3、中位数
将一组数据按照从小到大的顺序排列时 , 最中间的数据就是中位数 。 当数据个数为奇数时 , 中位数即最中间的数 , 当数据个数为偶数时 , 中位数为中间两个数的平均值 。 中位数不受极值影响 , 因此对极值缺乏敏感性 。
4、分位数
中位数从中间点将全部数据等分为两部分 。 与中位数类似的还有四分位数、十分位数和百分位数等 。 它们分别是用3个点、9个点和99个点将数据4等分、10等分和100等分后各分位点上的值 。 这里简单介绍一下比较常见的四分位数的使用方法:
四分位数是指在把所有数值由小到大排列并分成四等份 , 处于三个分割点位置的数值 , 分割后我们会通过5个数值来描述数据的整体分布情况 。
- 下界:最小值 , 即第0%位置的数值;
- 下四分位数:Q1 , 即第25%位置的数值;
- 中位数:Q2 , 即第50%位置的数值;
- 上四分位数:Q3 , 即第75%位置的数值;
- 上界:最大值 , 即第100%位置的数值 。
计算方式:
①先求出中位数Q2:
首先我们要将所有数值以从小到大 , 从左到右的顺序进行排序 , 假设有n个数如果n是奇数 , 中位数就是位于中间位置的数值 。 如果n是偶数 , 中位数则是中间两个数的平均值 。
本文插图
②求出下四分位数和上四分位数:
本文插图
下四分位数Q1的位置=(n+1)x0.25;上四分位数Q1的位置=(n+1)x0.75
举个例子:
我们根据下面的数据 , 分析一下就餐人员距离的问题 。
推荐阅读
- 『生活招数多』手机网络慢还不稳定?打开这个“隐藏功能”,网速会有明显提升!
- 「」哪家18W PD快充方案最受欢迎?看完这个报告秒懂
- :余音GY-10试听:依旧性价比,好声音并不贵
- 「时间」iPhone se2这机器放在现在这个时间,真的有点奇怪
- 「木星」为什么木卫二这个卫星会被科学家认为“一定会有生命”?
- #科技如梦#iPhone se2这机器放在现在这个时间,真的有点奇怪
- 「美好,一直在身边」马鞍形 星空顶 杭州地铁5号线的这个入口很特别
- 『』一口锅竟然学会了武术,我被它彻底打服气了(附暴力输出大片)
- 明日数码:不推荐给父母买iphoneSE 2的三大理由!中老年人买手机别入这个坑
- @你和学霸之间的距离,可能差了个它了