大数据面前，统计学的价值在哪里我能与大家在这里做一些关于

统计学对大数据的意义
很高兴有这样一个机会，我能与大家在这里做一些关于统计学与大数据的交流，与大家分享一些观点。
在讲大数据之前，我们首先来看看什么是数据。很长一段时间里，大家对数据的理解，可能只是停留在阿拉伯数字这个层面。近些年来，大家开始讲大数据。结果有人就开始好奇了：这个大数据和我们之前说的数据有什么关系呢？
阿拉伯数字是不是数据呢？当然是数据。大数据是不是数据呢？当然也还是数据。不过，现在我们对数据的理解要广泛得多了。凡是可以被数据化的信息载体，我们都可以认为是数据。比如说，我们接触的文本，包括平时看到的一些文字，现在我们都可以把它量化。我们看到的图片、视频和音频，现在也都可以量化。包括阿拉伯数字、文本、图片、视频和音频，我们都称之为数据。现在我们理解的数据，从来源上来说更加广泛了，从类型上说变得很复杂了。这些不同来源、类型复杂的数据组合在一起，达到一定的体量之后，就可以认为是一个大数据了。

文章图片
现在我们来说一下统计学，统计学是什么呢？首先，從学科定位上说，统计学已经被列为一级学科了。这一点和数学、法学等都一样了。大不列颠百科全书对统计学有个定义，说这是一门收集数据、分析数据的科学和艺术。定义中提到统计学是一门科学，这个容易理解。那为什么说统计学是一门艺术呢？这个问题，就和我今天主要回答的一个问题很有关系。顺便说一句，现在美国很多高校的统计系，它并不设在理学院下面，而是设在艺术学院下面。
今天我主要回答一个问题：在大数据时代，我们究竟是否需要基于抽样的统计学？
【大数据面前，统计学的价值在哪里】有些人认为，现在计算机科学非常发达，可以收集海量的数据。为了特定的研究目的，我们现在甚至有能力通过计算机技术收集与特定的研究目的相关的全部数据。今天，基于抽样的统计学就没有那么重要了，甚至都不再被需要了。事实真的是这样吗？
统计学是一门收集数据的艺术
既然统计学被认为是一门收集数据、分析数据的科学和艺术，我们暂时不谈科学，先来看看统计学为什么被认为是一门收集数据的艺术。
我们来看第一个案例。这个案例是希望调查15个国家国民的诚实情况。调查人员想要知道，哪些国家的国民最倾向于撒谎，哪些国家的国民很诚实。如果直接去问被调查的人员：“您是否撒过谎？”十之八九，是问不到真实答案的。如果被调查人员以前撒过谎，也不在乎多撒这个谎了。被调查人员可能出于不同的动机，不愿意给出真实答案。那么，调查数据怎么得来呢？这显然不是简单地通过计算机技术、通过某些爬虫软件就容易收集到适合研究目的相关数据的。
如何利用统计学方法来收集数据呢？这就需要统计学的智慧了。调查人员设计了两组实验。
调查人员先从每一个国家找1000人参与测试， 15个国家一共找了15000人，找这么多不同国家的人来面对面调查，这是非常困难的，所以调查人员通过互联网找到了这15个国家共计15000人。两组实验都是在互联网上进行的。
在第一组中，他们先做了一个测试，请受调查者在家里抛硬币，硬币有正反两面，调查者事先规定，受调查者抛硬币之后要告诉我结果，如果硬币正面朝上，我就奖励你十块钱，如果反面朝上，我就不给你奖励。这个调查不需要提供你抛硬币的证据，只是由你告诉调查者，抛硬币的结果。这也就是说，受调查者有没有撒谎，只有他自己知道。
这个最后的结果，实际上调查者是有参照的。因为，每个国家有1000人参与测试。正常情况下， 1000次抛硬币的结果，应该是500次左右正面朝上。某个国家参与实验的1000个人之中，如果有900个人声称自己抛出来的硬币正面朝上，甚至1000人声称抛出来硬币正面朝上。那么，很大概率就是其中有人撒谎了。这是第一组实验。
第一组的实验有价值，但是它也不一定能够全面反映真实的情况，所以调查人员还有第二组实验。
第二组实验，是要求受调查者回答五个问题。这五个问题在回答之前，需要受调查者承诺，他不能为了答题去查阅任何资料，不能去寻求任何帮助，也就是说，看了这五个问题之后，受调查者需要立即给出答案。调查者承诺，如果五个问题中，回答对了四个以上，就奖励给受访者十块钱，如果答对三个或者三个以下，就没有奖励。
而这五个问题中，其中有三个问题特别简单，类似于像1+1等于几这种问题。另外两个问题则非常生僻。如果受调查者不去查阅资料或咨询他人的话，基本是不太可能回答出来的。因此，如果有受调查者答对了这两道难题，十有八九就说明他违反了自己事先承诺的“不去查阅资料寻求帮助” ，由此可以推论他在这件事情上不诚实。
然后统计人员通过这两组实验结果，互相验证。这两组数据收集的过程都非常恰当地体现了统计学在收集数据方面的智慧。
所以说，即使在大数据时代，不是说有了计算机，有了爬虫技术，我们就能收集到适合研究目的的所有数据。统计学是一个收集数据的艺术，针对特定的研究目的，设计非常漂亮的数据收集方案，就是一个非常艺术的收集数据的过程了。
我们再举一个例子。这是最近美国麻省理工刚刚完成的一个实验，大致在2018年左右完成的，实验结果也公布出来了。目的是想了解大家目前的婚姻观念， 100人受到邀请来到一个封闭的场所参与这个实验。参加实验时，每人都会被贴上一个编号。男的编号是单数一三五七九，女的编号是双数二四六八十，以此类推。参与实验的这100人不知道自己的编号，也不知道究竟有多少人参加了这次实验。换句话说，他们不知道参加这次实验的正好是50个男人和50个女人，受访者仅仅知道，这次实验有很多人参加。
在这里统计人员采取了一点小花招，就是当受访者进门的时候，把编号贴在受访者后背上，受访者知道自己有编号，但是不知道自己的编号是多少，不过他能够看到别人后背上的编号。实验规则说，允许100人中的任何两个人进行交谈，除了不能告诉对方他的后背编号是多少，其他话题都可以谈。
然后实验者把这100人带到一个很小的房间里，宣布给大家5分钟时间，在这5分钟内，大家自行配对，每人只能配一名异性。 5分钟结束之后，如果配对成功了，两个人背后的数字加起来乘以十，就是两人能够拿到的奖金。也就是说，如果编号是100的那个女性找到了那个编号为99的男性，那么两人就可以拿到（100+99）×10的奖金，也就是1990美元，这笔钱已经很可观了。但是如果你是一个编号为2的女性，而你找到的是那个编号为1的男性，那么你俩只能得到（1+2）×10也就是30美元，你俩用这奖金一起吃顿饭都不一定够。但是5分钟之后，如果还没有配对成功的话，你就连一美分都拿不到。因此，参加者必须在5分钟之内，在一个很小的拥挤空间内，尽快找到愿意跟自己配对的那个人。而且在这个过程中，要尽可能让自己的奖金数额变得很大。
实验人员之所以把100人故意安排在非常拥挤的小房间内，就是考虑到，一方面要让大家能够很快速地看到一些人的编号，另一方面又能保证一个人不可能看到所有人的编号。在人挤人的情况下，有些编号是肯定看不到的。
实验开始了。

大数据面前，统计学的价值在哪里

推荐阅读

如果你有一个侠客梦，一定要来土山湾，饱览“天下龙泉”瓷与剑

翡翠|一块被烧红的翡翠原石，经过雕琢后，令人瞠目结舌！

陈意涵晒女儿正脸照，2岁剉冰越长越像妈妈，一双眼睛堪比洋娃娃

出土|游国博赏国宝，妇好墓出土天下第一凤不就是“有凤来仪”吗

明朝末年疆域?元朝到明朝为什么疆土少了

|星球大战 x adidas 全新系列即将发售

平安信用卡怎么注销信用卡，平安信用卡注销怎么注销?

经济参考网|国家能源集团赵哲：“查路”的扶贫路

暨阳雁翎茶简介,紫砂壶梨形壶简介

大话汽车在路上|将在华推出纯电动跨界SUV，日产“叫板”特斯拉

中年|散装卫生巾争议的背后，“月经贫困”真实存在，情况让人担忧

双教师家庭,夫妻退休金共9000元,有房有车,在县城算什么水平！

六月份养什么花最好呢

幽默笑话大王|幽默笑话：大学里散发着青春和荷尔蒙的气味……

微享健康|2个信号会提醒你，若置之不理，胃怎么也好不了，感染幽门螺杆菌

水煮歷史|为何最终只能三分天下？，曹操穷尽一生

央视新闻|泰山上这一幕，火了

韩剧集合处|分享3种办公室日常穿搭，严谨又时尚，秋季穿出属于你的风貌

【农村小春】会聊天、能停车，还认人，长安欧尚推X7智能新品

怎样快速有效祛斑？如何祛斑效果好？