大数据面前,统计学的价值在哪里

统计学对大数据的意义
很高兴有这样一个机会 , 我能与大家在这里做一些关于统计学与大数据的交流 , 与大家分享一些观点 。
在讲大数据之前 , 我们首先来看看什么是数据 。 很长一段时间里 , 大家对数据的理解 , 可能只是停留在阿拉伯数字这个层面 。 近些年来 , 大家开始讲大数据 。 结果有人就开始好奇了:这个大数据和我们之前说的数据有什么关系呢?
阿拉伯数字是不是数据呢?当然是数据 。 大数据是不是数据呢?当然也还是数据 。 不过 , 现在我们对数据的理解要广泛得多了 。 凡是可以被数据化的信息载体 , 我们都可以认为是数据 。 比如说 , 我们接触的文本 , 包括平时看到的一些文字 , 现在我们都可以把它量化 。 我们看到的图片、视频和音频 , 现在也都可以量化 。 包括阿拉伯数字、文本、图片、视频和音频 , 我们都称之为数据 。 现在我们理解的数据 , 从来源上来说更加广泛了 , 从类型上说变得很复杂了 。 这些不同来源、类型复杂的数据组合在一起 , 达到一定的体量之后 , 就可以认为是一个大数据了 。
大数据面前,统计学的价值在哪里
文章图片
现在我们来说一下统计学 , 统计学是什么呢?首先 , 從学科定位上说 , 统计学已经被列为一级学科了 。 这一点和数学、法学等都一样了 。 大不列颠百科全书对统计学有个定义 , 说这是一门收集数据、分析数据的科学和艺术 。 定义中提到统计学是一门科学 , 这个容易理解 。 那为什么说统计学是一门艺术呢?这个问题 , 就和我今天主要回答的一个问题很有关系 。 顺便说一句 , 现在美国很多高校的统计系 , 它并不设在理学院下面 , 而是设在艺术学院下面 。
今天我主要回答一个问题:在大数据时代 , 我们究竟是否需要基于抽样的统计学?
【大数据面前,统计学的价值在哪里】有些人认为 , 现在计算机科学非常发达 , 可以收集海量的数据 。 为了特定的研究目的 , 我们现在甚至有能力通过计算机技术收集与特定的研究目的相关的全部数据 。 今天 , 基于抽样的统计学就没有那么重要了 , 甚至都不再被需要了 。 事实真的是这样吗?
统计学是一门收集数据的艺术
既然统计学被认为是一门收集数据、分析数据的科学和艺术 , 我们暂时不谈科学 , 先来看看统计学为什么被认为是一门收集数据的艺术 。
我们来看第一个案例 。 这个案例是希望调查15个国家国民的诚实情况 。 调查人员想要知道 , 哪些国家的国民最倾向于撒谎 , 哪些国家的国民很诚实 。 如果直接去问被调查的人员:“您是否撒过谎?”十之八九 , 是问不到真实答案的 。 如果被调查人员以前撒过谎 , 也不在乎多撒这个谎了 。 被调查人员可能出于不同的动机 , 不愿意给出真实答案 。 那么 , 调查数据怎么得来呢?这显然不是简单地通过计算机技术、通过某些爬虫软件就容易收集到适合研究目的相关数据的 。
如何利用统计学方法来收集数据呢?这就需要统计学的智慧了 。 调查人员设计了两组实验 。
调查人员先从每一个国家找1000人参与测试 , 15个国家一共找了15000人 , 找这么多不同国家的人来面对面调查 , 这是非常困难的 , 所以调查人员通过互联网找到了这15个国家共计15000人 。 两组实验都是在互联网上进行的 。
在第一组中 , 他们先做了一个测试 , 请受调查者在家里抛硬币 , 硬币有正反两面 , 调查者事先规定 , 受调查者抛硬币之后要告诉我结果 , 如果硬币正面朝上 , 我就奖励你十块钱 , 如果反面朝上 , 我就不给你奖励 。 这个调查不需要提供你抛硬币的证据 , 只是由你告诉调查者 , 抛硬币的结果 。 这也就是说 , 受调查者有没有撒谎 , 只有他自己知道 。
这个最后的结果 , 实际上调查者是有参照的 。 因为 , 每个国家有1000人参与测试 。 正常情况下 , 1000次抛硬币的结果 , 应该是500次左右正面朝上 。 某个国家参与实验的1000个人之中 , 如果有900个人声称自己抛出来的硬币正面朝上 , 甚至1000人声称抛出来硬币正面朝上 。 那么 , 很大概率就是其中有人撒谎了 。 这是第一组实验 。
第一组的实验有价值 , 但是它也不一定能够全面反映真实的情况 , 所以调查人员还有第二组实验 。
第二组实验 , 是要求受调查者回答五个问题 。 这五个问题在回答之前 , 需要受调查者承诺 , 他不能为了答题去查阅任何资料 , 不能去寻求任何帮助 , 也就是说 , 看了这五个问题之后 , 受调查者需要立即给出答案 。 调查者承诺 , 如果五个问题中 , 回答对了四个以上 , 就奖励给受访者十块钱 , 如果答对三个或者三个以下 , 就没有奖励 。
而这五个问题中 , 其中有三个问题特别简单 , 类似于像1+1等于几这种问题 。 另外两个问题则非常生僻 。 如果受调查者不去查阅资料或咨询他人的话 , 基本是不太可能回答出来的 。 因此 , 如果有受调查者答对了这两道难题 , 十有八九就说明他违反了自己事先承诺的“不去查阅资料寻求帮助” , 由此可以推论他在这件事情上不诚实 。
然后统计人员通过这两组实验结果 , 互相验证 。 这两组数据收集的过程都非常恰当地体现了统计学在收集数据方面的智慧 。
所以说 , 即使在大数据时代 , 不是说有了计算机 , 有了爬虫技术 , 我们就能收集到适合研究目的的所有数据 。 统计学是一个收集数据的艺术 , 针对特定的研究目的 , 设计非常漂亮的数据收集方案 , 就是一个非常艺术的收集数据的过程了 。
我们再举一个例子 。 这是最近美国麻省理工刚刚完成的一个实验 , 大致在2018年左右完成的 , 实验结果也公布出来了 。 目的是想了解大家目前的婚姻观念 , 100人受到邀请来到一个封闭的场所参与这个实验 。 参加实验时 , 每人都会被贴上一个编号 。 男的编号是单数一三五七九 , 女的编号是双数二四六八十 , 以此类推 。 参与实验的这100人不知道自己的编号 , 也不知道究竟有多少人参加了这次实验 。 换句话说 , 他们不知道参加这次实验的正好是50个男人和50个女人 , 受访者仅仅知道 , 这次实验有很多人参加 。
在这里统计人员采取了一点小花招 , 就是当受访者进门的时候 , 把编号贴在受访者后背上 , 受访者知道自己有编号 , 但是不知道自己的编号是多少 , 不过他能够看到别人后背上的编号 。 实验规则说 , 允许100人中的任何两个人进行交谈 , 除了不能告诉对方他的后背编号是多少 , 其他话题都可以谈 。
然后实验者把这100人带到一个很小的房间里 , 宣布给大家5分钟时间 , 在这5分钟内 , 大家自行配对 , 每人只能配一名异性 。 5分钟结束之后 , 如果配对成功了 , 两个人背后的数字加起来乘以十 , 就是两人能够拿到的奖金 。 也就是说 , 如果编号是100的那个女性找到了那个编号为99的男性 , 那么两人就可以拿到(100+99)×10的奖金 , 也就是1990美元 , 这笔钱已经很可观了 。 但是如果你是一个编号为2的女性 , 而你找到的是那个编号为1的男性 , 那么你俩只能得到(1+2)×10也就是30美元 , 你俩用这奖金一起吃顿饭都不一定够 。 但是5分钟之后 , 如果还没有配对成功的话 , 你就连一美分都拿不到 。 因此 , 参加者必须在5分钟之内 , 在一个很小的拥挤空间内 , 尽快找到愿意跟自己配对的那个人 。 而且在这个过程中 , 要尽可能让自己的奖金数额变得很大 。
实验人员之所以把100人故意安排在非常拥挤的小房间内 , 就是考虑到 , 一方面要让大家能够很快速地看到一些人的编号 , 另一方面又能保证一个人不可能看到所有人的编号 。 在人挤人的情况下 , 有些编号是肯定看不到的 。
实验开始了 。


    推荐阅读