大数据会说谎:看穿数据的真相
编辑导语:如今在这个大数据时代 , 我们的日常都被计算在其中 , 最常见的就是线上购物软件的算法 , 根据大数据对你进行标签化 , 推送你可能喜欢的商品;本文作者详细分析了大数据时代的双刃剑 , 我们一起来看一下 。
本文插图
最近接连温习了几本数据相关的书 , 作为数学系毕业的学生 , 虽然毕业多年都无缘从事数据相关的职业 , 基础的理论知识也基本化整为零 , 但我对数据一直都蛮感兴趣的 , 在此也想分享下我的一些看法 。
“一家公司宣布3003人持有该公司的股份 , 每人平均持有660股 。 ”
乍一看 , 优秀优秀 。
别急着鼓掌 , 这个令人惊叹的数据背后还有另一信息没有透露:“公司累计200万股股票 , 其中三大股东的股份占了3/4 , 而剩下的3000人总共持有的股份只占1/4“ 。
同样的 , 之前民间盛传的腾讯人均月薪7.18万 , 看起来是否也颇为可疑?
首先 , 这数据精确得让人吃惊;其次 , 未加说明的平均数都是耍流氓;最后 , 即便你做了大样本调查 , 可收入作为敏感信息 , 免不了参杂虚报和瞒报的情况 , 可信度也要大打折扣——这种话题作为媒体的噱头听听就好 , 当真了可是要伤心的 。
但事实上 , 人容易为数据痴迷 。
学生的能力不好评估 , 但考试成绩和学位证书可以佐证 , 于是家长们争先恐后地帮孩子报了补习班;了解一个陌生人很难 , 但朋友圈和Facebook提供了一个渠道 , 于是我们都执着于在网上塑造一个理想人设 。
看吧 , 我们一直置身于大数据的热潮中 。
我的大学朋友基本上都在从事大数据计算相关的职业 , 平常我们闲聊时 , 或多或少会感叹大数据给我们带来的双刃剑 。
在充斥数据和算法的年代 , 究竟是数据为我 , 还是我为数据?数据是不是就等于我们自己?这个命题太大 , 我只能随波逐流 。
今天主要是想认真探讨下 , 这么多年来 , 你我曾经陷入的数据陷阱以及我们能采取的行动 。
一、数据会说谎?
大数据是个好工具 , 尤其到了现在 , 它早已被放大了光环 , 给我们带来了诸多便利;你浏览过什么 , 对什么感兴趣 , 推荐算法总是能精准地匹配你的口味(或者说 , 大数据定义了你的口味) 。
当然 , 唱衰大数据的人也不少:“数据只是证实了显而易见的事实 。 ”不少人对此不屑一顾 。
然而 , 我最近看到的几个案例 , 都不止一次地让我啼笑皆非:数据一次又一次地证明了很多我们想当然的推测跟真实是不相符的 。
你可能会认为 , 在暴力电影放映后的当天 , 那些有攻击性的年轻人会更易怒 , 犯罪率铁定会上升;但事实上 , 有经济学家通过数据分析 , 在电影结束后到次日的凌晨 , 犯罪率持续在下降;一方面暴力电影让潜在的暴力人群离开了街头 , 另一方面由于影院几乎不供应酒类饮品 , 减少了酒精有关的犯罪活动 。
大数据为人我们提供了一个新维度的视角 , 覆盖面较单一的意会更广 , 让我们对世界的认知也更立体了 。
也正是因为如此 , 我在看一些调研报告的时候发现 , 这把双刃剑的另一面 , 终于还是现出了他的真面目 。
1. 相关性而非因果性
大数据显示 , 某地某时段起飞了多少只白天鹅 , 据此推断天鹅都是白的 。
这显然太扯了 , 但你敢拍着胸脯保证自己没掉过这类圈套吗?
甚至有些时候 , 如果我们无法证明自己想要证明的东西 , 下意识地就会展示一些其他东西 , 并假装他们是一样的;毕竟现在统计数据让人目不暇接 , 几乎没人会察觉到其中的差别 , 不是吗?
说到这我也不得不反思 , 我难道没有过吗?掀开这层遮羞布 , 坦白说 , 不少情况下当我试图争取更多的权益和话语权时 , 不自觉地也使了这样的把戏 。
推荐阅读
- Steam|B社宣布放弃自家游戏启动器!数据将转移至Steam平台
- 苹果|数据、质保二选一?国内用户起诉苹果保修政策不合理
- 照片|面部识别公司声称要收集1000亿张照片:将记录全球每个人脸数据
- QQ|虚幻4数据包增大23MB!QQ推送安卓8.6.68内测版
- 数据线|49元 魅蓝66W快充线发布:防弹丝编织+锌合金
- 阿里巴巴|阿里的分布式数据库OceanBase:帮公司省了几百个亿
- 数据线|40Gbps满速!奥睿科首款USB4/雷电4数据线发布:支持DP1.4+100W快充
- 特斯拉|特斯拉Model Y USB-C快充模块拆解:遗憾砍掉数据传输
- 特斯拉|实测1067马力超官方数据!最强特斯拉Model S动力测试结果出炉
- AMD|国外装机商统计了3年数据发现:Intel处理器比AMD更稳定可靠
