抽样调查会被大数据的全样本分析所取代吗
『全样本分析取代抽样』,如果是在说『在一些过去依靠抽样的研究领域,普查正在替代抽样』,是对的;如果是在说『在数据分析的整个世界里,一种方法正在取代另一种方法』,是不对的。
图来自 Peking谭北平的微博我觉得至少可以讲这四个故事:一些研究变不可能为可能(研究方法突破)一些过去依靠抽样的工作方法彻底过时(流程优化)一些过去靠抽样(数据采集)为生的人,在原有领域被做普查的人取代,只能去别的领域找机会(产业结构改变就业结构)一定还存在很多的领域,是目前还无法做普查但可以做抽样的,但过去做抽样的人觉得回报不够高而不愿做,现在他们降低了收入预期,所以就去做了(劳动力流动驱动技术扩散)
■网友
不会。第一,抽样调查的随机性,使得样本可以反映总体的情况。大数据样本没有这样的随机性,不能很好的代表总体。第二,能否把大数据样本当作“总体”来使用? 答案依旧是不行。大数据技术本身远远没有达到“普查”的水平,存在统计偏差。总结:大数据的确很牛逼!大数据不能代替抽样调查!错误的使用,得到的结果只能自欺欺人。从统计分析,到数据挖掘,再到大数据,扎实的统计知识都是必不可少的。统计知识的意义在于,告诉我们,什么样的结果是错误的!如何不被结果所欺骗!推荐一本书 :统计学的世界简单浏览几章,大家就能明白样本是如何误导世界的。
■网友
不会。大数据没想象的那么厉害。
■网友
不是普查的大数据不一定比样本量较少的随机抽样好,参见
https://www.youtube.com/watch?v=yz3jOIHLYhU由大型非随机样本创建的分布非常狭窄,且可能并不包含实际值。如果我们尝试使用非随机样本创建置信区间,则它们都不会包含真实的实际值。更糟糕的是,由于样本太大,因此置信区间将非常窄。我们将非常确信于最终的错误答案。
【抽样调查会被大数据的全样本分析所取代吗】 实际上,当我们的抽样方法出现偏差时,由于我们将更加确定错误的结果,因此随着收集更多数据,我们的估计通常通常会变得更差。为了使用略有偏差的采样方法进行准确的估计,样本必须几乎与总体本身一样大,这通常是不切实际的要求。数据的质量比其大小重要得多。
推荐阅读
- “一部手机读云南”上线力争建成国家方志大数据中心西南中心
- 联合国大数据全球平台中国区域中心在杭州成立
- 银行的数据中心可以跳槽去互联网公司吗
- |大数据赋力 半个多月前拉客的“黑车”精准落网
- 数据采集终端|
- 关于用phpfsocket 写Post, 模拟http 报文怎样写入要传输的处理数据
- 假如把中国电信监测到的3亿人一个月每天上网的所有行为打个包,哪些数据应该被提出从这些数据能得到啥
- 游戏公司一般咋识别游戏脚本
- 城市数据团是怎么样一个团队
- 上海或苏州有没有比较好的大数据培训机构
