大数据会说谎:看穿数据的真相( 三 )


然而 , 如果缺乏可信的测算方式 , 比如概率误差、标准误差的检验 , 那么可信度就要大打折扣了 。
尤其要留心那些未加说明的平均数 , 因为无论在什么时候 , 均值和中位数都有着本质的差别 。
一份报告曾指出“过去25年内因癌症死亡的人数大幅增长” , 很吓人对不对?
但我们都知道 , 以前那些“原因不明”的病症现在都被确诊为癌症 , 这是其一;此外尸体解剖更加频繁 , 诊断也就更为确切;现在人均寿命延长 , 因此更多人会活到容易患癌症的年龄;最后 , 报告给出的数据应该是死亡总人数而非死亡率——毕竟现在的人口总数比以前要多 。
3. 偷换概念了吗?
搞乱因果关系 , 拿词义做文章 , 都是偷换概念的方式 。
早在前几年 , 人们普遍认为女博士的婚育年龄普遍较学历较低的女性会更大 , 女博士里的剩女比例也更高;后来“剩女”一词被人诟病后 , 现在被冠以“单身贵族”的头衔 , 听起来似乎还蛮前卫的?
这算是很明显的偷换概念了 , 本质上想传达的观点并没有变化;而更多时候 , 在更为专业的领域 , 遇到偷换概念的场合 , 你我可能并不能一眼识别 。
4. 这是否合乎情理?
那么 , 究竟要怎样做才能不被毫无意义的结论愚弄?你总不能指望每个人都成为统计学家 , 亲自分析数据吧?
反其道而行 , 你要去捕捉没有被透露的数据 , 留心这部分的数据 , 就能看穿这种别有用心的手段 。
此外 , 截止到目前为止的趋势或许是事实 , 但未来的趋势不过是我们的猜测;你不能拿现有的趋势直接去臆测未来的趋势 , 毕竟所有的事情不会一成不变 。
比如说现在有个新闻是这么报道的:在大雾天气的一周内 , 某地区的死亡人数猛增至2800人……
仔细想下 , 这一周内死亡率比平时高这么多难道不是例外吗?所有的事情都处在变化之中 。 往下看 , 随后几周情况如何?死亡率降至平均水平以下 , 是否意味着大雾中死去的人本来就已不久于人世?
看吧 , 这个数据的确让人印象深刻 , 但由于没有其他数据可以对比 , 所以这个数据也变得没什么意义 。
三、数据是把双刃剑
写这篇文有点杀敌一万自损八千的感觉 , 前文提到的数据陷阱 , 无论是假相关性、乱因果性 , 还是拿着薄数据去佐证对自己有利的观点;这些我曾经陷入的圈套 , 同样也在某些时刻成为了我“行骗”的工具 。
究竟要怎么去用数据呢?我已许久没系统性地做过数据挖掘和统计分析 , 但我相信大数据广阔的应用前景 , 也在大数据给出的相关性规律里获益匪浅;我也在反思 , 在数据至上的时代 , 我是不是过少地发现它的局限性 , 过分地依赖它给的结论 。
至于那些拿大数据用以评判个人、组织乃至社会 , 特别是关乎人性抉择、生杀进退的大事 , 我们是否又能接受这些冰冷的数据浇灭人情的热度?
一起拭目以待吧 。
再次强推最近读完的这三本书 , 给了我对于数据和认知上更多的启发:

  • 赛思·斯蒂芬斯:《人人都在说谎:赤裸裸的数据真相》
  • 斯科特·佩奇《多样性红利》
  • 达莱尔·哈夫《统计数据会说谎》
#专栏作家#
林壮壮 , 微信公众号:健壮的大姐姐(ID: is_strong) , 人人都是产品经理专栏作家 。 腾讯高级产品经理 , 专注于To B服务项目管理和行业分析 , 欢迎各路好汉一起探讨 。
本文原创发布于人人都是产品经理 。 未经许可 , 禁止转载
【大数据会说谎:看穿数据的真相】题图来自pexels , 基于CC0协议


推荐阅读