错觉：AI如何通过数据挖掘误导我们|周末读书很多人认为我们生活在一个不

文章图片
在人工智能异常火热的今天，很多人认为我们生活在一个不可思议的历史时期，人工智能和大数据可能比工业革命更能改变人的一生。然而这种说法未免言过其实。我们过于武断地认为计算机搜索和处理堆积如山的数据时不会出差错，但计算机只是擅长收集、储存和搜索数据，它们没有常识或智慧，不知道数字和词语的意思，无法评估数据库中内容的相关性和有效性，它们没有区分真数据、假数据和坏数据所需的人类判断力，没有分辨有理有据和虚假伪造的统计学模型所需的人类智能。
计算机挖掘大数据风行一时，但数据挖掘是人为而非智能，也是非常艰巨、危险的人工智能形式。数据挖掘先是通过大量的数据走势、相关关系来发现让我们内心愉悦的模型，然后创造理论来解释这些模型。作者通过“史密斯测试”和“得州神枪手谬误”等实例说明，如果你挖掘和拷问数据的时间够长、数量够大，你总能得到自己想要的结果，然而这是相关关系却并不是因果关系，只是自我选择偏好，并没有理论基础也没有实用价值。
在人工智能时代，我们对计算机的热爱不应该掩盖我们对其局限性的思考，真正的危险不是计算机比我们更聪明，而是我们认为计算机具有人类的智慧和常识，数据挖掘就是“知识发现” ，从而信任计算机为我们做出重要决定。更多的计算能力和更多的数据并不意味着更多的智能，我们需要对人类的智慧有更多的信心。
作者简介
加里·史密斯，波莫纳学院经济学教授，曾获弗莱彻·琼斯基金奖。他是耶鲁大学经济学博士，曾在耶鲁大学担任助理教授一职长达7年，两度获得教学奖，撰写（或合著）过80多篇学术论文和12本书，包括《数据科学的9个陷阱》《基本统计、回归和计量经济学》《标准偏差：有缺陷的假设，扭曲的数据，以及其他欺骗统计数据的方法》《简单统计学：如何轻松识破一本正经的胡说八道》《运气爆棚？偶然性在我们日常生活中的惊人作用》《货币机器：价值投资出奇简单的力量》。他的研究曾被彭博网、CNBC、《福布斯》《纽约时报》《华尔街日报》《新闻周刊》和《商业周刊》竞相报道。
目录
第一章智能还是服从
【错觉：AI如何通过数据挖掘误导我们|周末读书】第二章盲从
第三章无语境的符号
第四章坏数据
第五章随机性模式
第六章如果你拷问数据的时间足够长
第七章无所不包的“厨房水槽法”
第八章新瓶装旧酒
第九章先吃两片阿司匹林
第十章完胜股市（上）
第十一章完胜股市（下）
第十二章我们都在监视着你
编辑推荐
在人工智能异常火爆的今天，本书另辟蹊径，从反面探讨了AI研究中存在的一系列问题。开创性地提出了“得州神枪手谬误”和“史密斯测试”等来批判那些先有数据后有理论和模型的科学研究方式——数据挖掘。如今数据挖掘以相关关系取代了因果关系， AI到底是真的有智能还是只在服从？本书为你解答。
精彩书摘
《危险边缘》是一档热门的电视智力竞赛节目，有多个版本，开播至今已有50多年。该节目的比赛内容为百科知识问答，其巧妙之处在于：参赛者要根据以答案形式提供的各种线索，给出与这个答案相对应的问题。例如，线索是“美国第16任总统” ，正确的问题就是：“谁是亚伯拉罕·林肯？”每期节目均有三名参赛者，以摁按钮的方式口头抢答（除了最后一轮“终极危险边缘”以外，在其他环节三名参赛者均有30秒时间书写作答）。
从很多方面来看，这档节目都适合计算机参与，因为计算机能准确无误地存储和检索大量信息。在《危险边缘》青少年组比赛中，一名男孩因将“谁是安尼·弗兰克”误写成“谁是安妮·弗兰克”而痛失冠军。而计算机就不会犯这样的错误。
另外，线索有时通俗易懂，有时却晦涩难解。例如，线索是“把它打进去，你就输了比赛” ，对只是资料库的计算机来说，很难得出以下正确问题：“什么是（台球）母球？”
还有一个难解的线索是：“翻译时，这支大联盟棒球队的名字会重复一次。 ”正确问题为：“什么是洛杉矶天使队？”（WhatistheLosAngelesangels？）
2005年， 15名IBM（国际商用机器公司）的工程师合作设计了一款能与《危险边缘》最佳玩家同台对擂的计算机，取名“沃森” ，以纪念IBM的首任CEO（首席执行官）托马斯·J·沃森。沃森在1914年接手IBM时， IBM还只是一家仅有1300名员工、年收入不足500万美元的小公司，到了1956年他去世的时候， IBM已经发展成为一家有7.25万名员工、年收入9亿美元的公司。
“沃森”程序存储了相当于2亿页纸的内容，每秒可处理相当于100万本书的信息。除了拥有海量内存和高速处理能力外， “沃森”还能理解自然语言，使用合成语音进行交流。与罗列相关文档或网站的搜索引擎不同， “沃森”可按照程序并根据线索得出具体答案。
“沃森”运用数百个软件程序，先识别线索中的关键字和词组，再与海量数据库中的关键字和词组相匹配，最后得出合理答案。按照编好的程序，如果线索是某个名字（如亚伯拉罕·林肯）， “沃森”就会写出以“谁是……”开头的问题；如果线索为某一事件，它就会写出以“什么是……”开头的问题。单个软件程序与某个答案的一致性越高， “沃森”就越能确定此为正确答案。
该程序能轻而易举地得出与“美国第16任总统”这么直白的线索对应的问题，但要处理有多重含义的词语时就有些困难了，比如，线索是“把它打进去，你就输了比赛”之类的问题。但是， “沃森”不会感到紧张，也绝不会遗忘。
2008年， “沃森”做好了参加《危险边缘》的准备，但还有些问题需要协商。 IBM团队担心该节目的工作人员会使用包含双关语和具有双重含义的线索，给“沃森”下圈套。这一担心也恰好揭示了人类与计算机的巨大差异。人类可以根据语境理解词义，所以能理解双关语、笑话、谜语和讽刺批评。而目前的计算机，充其量只能检查出数据库中是否含有双关语、笑话、谜语或讽刺批评。
对此，节目工作人员同意随机抽取以往编写但未使用的线索。而节目工作人员也担心，如果“沃森”一得到答案就可以发出电子信号，会比必须通过摁按钮来答题的参赛者更有优势。对此， IBM团队同意给“沃森”装根电子手指来摁按钮，但它还是比人类快，这也让“沃森”占据决定性优势。摁按钮快算是聪明的体现吗？如果“沃森”的反应速度降为与人类的一致，比赛结果又会如何？
接下来，在2011年的人机大战中， “沃森”与《危险边缘》的两名前冠军肯·詹宁斯和布拉德·鲁特展开了两轮比赛。首轮比赛“终极危险边缘”的线索是：它最大的机场以第二次世界大战的英雄命名，它的第二大机场以第二次世界大战的战役命名。
两名前冠军给出的问题为：“芝加哥是什么？”而“沃森”给出的问题是：“多伦多是什么？？？？？”显然， “沃森”识别出了“最大的机场”、“第二次世界大战的英雄”和“第二次世界大战的战役”这些词组，然后在其数据库中查找相同主题，但没能理解线索的第二部分（“它的第二大”）指的是该市的第二大机场。 “沃森”给问题添加了多个问号，因为它计算出的这一答案的正确概率仅为14％。
尽管如此， “沃森”还是以77147美元轻松获胜，詹宁斯和鲁特的赛果分别为24000美元和21600美元。 “沃森”夺得了100万美元的冠军奖金（IBM将其捐赠给了慈善机构），詹宁斯和鲁特也各自将奖金的一半捐赠给了慈善机构。 “沃森”在《危险边缘》的取胜是一次价值数百万美元的宣传良机。在获得艳惊四座的胜利后， IBM宣称，相比在《危险边缘》中与主持人亚历克斯·特雷贝克较量， “沃森”的问答技能将运用于更重要的领域。 IBM一直将“沃森”应用于医疗、银行、技术支持以及其他能利用庞大的数据库来解决具体问题的领域。

错觉：AI如何通过数据挖掘误导我们|周末读书

推荐阅读

申通快递|进一步加强高质量海外仓的建设，申通国际与ebay合作再深入

中国完整版地图中国地电视剧

美国：示威者进攻警察局！攻入议会大厦，现场枪声大作7人倒在血泊中，美国骚乱持续升级！

王者荣耀|耀FMVP将于8号上线，看了皮肤后，飞牛直言:“夏侯耀”？

人的长大真的会磨灭理想吗

抽屉里甲醛超标要紧吗抽屉里甲醛超标要紧吗

中国日报网■中国接入互联网25年，这些发展成就值得点赞！

航天科技|严重低估的军工股：资金急抢超10亿，航空科技龙头

外星人绑架|天狼星外星人绑架事件，2名钓鱼客与其亲密接触，描绘出一幅草图！

卞火狐说体育|签约桑乔，下赛季有望夺冠？，续约小将麦克托米奈

超级游戏助手|9连胜来到钻一，网友：真正的滑板鞋之王来了，uzi深夜在韩服rank

家乡体育|中国库里3分12中8，霸气宣战外援：全华班好样的，姚明杜锋获猛将

南方都市报|马斯克的“三只小猪”来了离“超级人类”还有多远？

门头沟区市场监管局@执法人员“地毯式”摸排复工企业，防控不到位责令关门

贾鸿君“符信”个展——“以符化形，信笃而坚”

美国这地成首个新冠确诊超百万州 12月能否启动疫苗接种？

新氧美容APP|47岁的宁静瘦到90斤，《浪姐》拿第一却不想成团！背后代价是…

洗洗更快乐■清新脱俗，句句吸引人！，适合所有情绪的句子

新房装修完工就等通风，等家具入完就可以入住了，亲朋都说很温馨

春季养生六种时令水果效果好 3