大数据会说谎:看穿数据的真相( 二 )
运用“看似相关的数据”作为论据 , 要么是无心之失 , 要么就是惯用伎俩 。
学生时代当我还对数学建模竞赛上心时 , 考题要求预测一个数值变化趋势 , 我当时就默默发现了一个“秘密” , 即/——给你一组数据 , 你可以使用任一种范式去找到一个看似好使的指标 , 但换一组数据 , 这个指标就失灵了;变量太多 , 你能试验的样本太少 , 于是你很容易发现这种假相关性 , 更别提你想基于这个相关性去推导因果性了 。
退一步来说 , 即便我们通过一个人平常访问网站的内容 , 监察到他有了犯罪的冲动 , 那到底是抓他还是不抓他?如果我们不能保证自己是正义的 , 那么我们也不会在意自己是否邪恶 。
有些人很擅长利用现有数据去预估接下来的数据变化 , 可能是多维度的观察 , 也可能是有了足够的数据样本;但是 , 数据会变 , 我们会变 , 如果你迷信数据而忽视本质 , 那么大数据就不能用于预测 , 只能预测有意会的预测 。
重申一遍 , 大数据只能提供相关性 , 而非因果性;具有纯粹因果关系的事情很少 , 因为现在事物间的联系变得越来越复杂 , 影响因素有很多 。 真正的数据是工具 , 而非结论或原因 。
2. 数据太“薄”
人们总会错误地认为无论样本数量多么少 , 都能反映种族的特征 。
我在读达莱尔·哈夫的《统计数据会说谎》时 , 书中提到一个经典的医疗实验:
一个地区的450名儿童注射了小儿麻痹症疫苗 , 另有680名儿童作为对照没有接受注射;不久之后 , 该地区出现了传染病;注射过疫苗的儿童中没有一个患上小儿麻痹症 。
看到这 , 你可能要给出小儿麻痹疫苗的有效性的结论了 。
但 , 这个实验还有后续 。 事实上 , 对照组中也没有儿童患病!
纵观小儿麻痹症的发病率 , 本来就比较低 , 这么大规模的群体中只可能出现两例患病者;因此 , 从一开始这个实验就注定毫无意义;如果想获得任何有意义的结论 , 实验组需要用比这个群体多15~20倍的儿童做样本 。
事实上 , 我们现在看到的很多市场调研报告 , 里面不乏通过小样本去给出均值结论的例子 , 比如我前两天看的90后消费人群分析:
- “84%的90后有理财习惯“;
- “34%的90后已购房“;
- “60%以上的90后将消费贷用于基本生活和休闲“……
只有试验的样本数目足够庞大 , 平均数定律才是一个有用的描述或猜测 。
二、看穿数据的真相
如果说前文展现的是目前普遍存在的数据行骗手段 , 那么接下来我们一起来试着看下如何去看穿数据的真相 , 避免被一些似是而非的东西所迷惑;毕竟“骗子”都已经熟练掌握了这些诡计 , 老实人又怎能不学点防御之术呢?
《统计数据会说谎》里给我提供了一个很好的思路 , 下次当我们接触到一些数据时 , 不妨提出4个问题试试:
1. 是谁这么说 , 他怎么知道?
这个结论怎么来的?找到有意识和无意识的偏差 。
比如你在机场分发消费问卷调查 , 那你可能就犯了选择误差 , 因为坐飞机的人相对而言比一般人更富裕些 , 消费水平自然会高一些 。
又或者 , 你发现某个屋子里人均身高偏高 , 然后打开门一看 , 姚明坐那呢;你选择的样本里有过高或过低的数据 , 样本不平均 , 就会出现这类错误 。
当然还有一种可能 , 你为了使自己拿到有利的结论 , 选对自己有利的数据 , 改变衡量的标准 , 再使用不恰当的测算方式;比如明明是中位数更能说明问题 , 却使用了均值来计算 , 最后再用“平均数”来掩盖事实真相 。
这些你能想到的伎俩 , 别人当然也能 。
2. 漏掉了什么?
在我们阅读分析报告时 , 大多数情况下我们无法得知样本中包含了多少案例;能看到的就是一张张绘制完美的图表 , 配上铿锵有力的结论 , 看起来多么令人信服 。
推荐阅读
- Steam|B社宣布放弃自家游戏启动器!数据将转移至Steam平台
- 苹果|数据、质保二选一?国内用户起诉苹果保修政策不合理
- 照片|面部识别公司声称要收集1000亿张照片:将记录全球每个人脸数据
- QQ|虚幻4数据包增大23MB!QQ推送安卓8.6.68内测版
- 数据线|49元 魅蓝66W快充线发布:防弹丝编织+锌合金
- 阿里巴巴|阿里的分布式数据库OceanBase:帮公司省了几百个亿
- 数据线|40Gbps满速!奥睿科首款USB4/雷电4数据线发布:支持DP1.4+100W快充
- 特斯拉|特斯拉Model Y USB-C快充模块拆解:遗憾砍掉数据传输
- 特斯拉|实测1067马力超官方数据!最强特斯拉Model S动力测试结果出炉
- AMD|国外装机商统计了3年数据发现:Intel处理器比AMD更稳定可靠
