动了数据科学家的奶酪?AutoML为何缺乏应用

文章图片
近日 , 波士顿咨询公司的GAMMA团队在《Medium》发表了一篇关于自动机器学习的文章 。 文中列举了自动机器学习(AutoML)的诸多好处 , 并表示AutoML并不会取代数据科学家 , 反而是强大的业务工具 。
原文如下:
当人工智能首次被引入商业流程时 , 它具有革命性 , 使企业能够利用大量积累的数据来改善计划和决策 。 然而 , 很快我们就发现 , 大规模地将人工智能集成到业务流程中需要大量的资源 。
首先 , 企业必须招募著名的数据科学家来创建人工智能背后的数据模型 。
其次 , 建立和训练加速数据分析过程的机器学习模型的过程需要花费大量的时间和精力 。
这也推动了自动机器学习(AutoML)的发展 , 这种技术本质上将机器学习的核心方面(包括模型选择、训练和评估)自动化 。
实际上 , AutoML寻求用机器(处理)时间转换为人类时间 , 这种自动化带来了许多好处 。
首先 , 它降低了劳动力成本 。 它还可以减少人为错误 , 自动执行重复性任务 , 并能够开发更有效的模型 。
通过减少创建ML模型所需的技术专业知识 , AutoML还降低了进入准入门槛 , 使业务分析人员可以利用高级建模技术 , 而无需数据科学家的帮助 。
AutoML将数据科学家从机器学习过程中的重复任务中解放出来 , 使这些成本昂贵的科学家们去探索更高价值的项目 。
新的解决方案总是会引发新的问题
作为数据科学家 , 我们最初很少想到AutoML 。 是的 , 这些技术和工具可以产生相当有效的模型 。 但这基本上就是他们所能做的一切——当然 , 他们并非没有缺点 。
在早期阶段 , AutoML工具远不及数据科学家使用现有工具实施的工具先进得多 , 并且通常没有那么复杂 。
AutoML的黑匣子性质使接受这些障碍变得更加复杂 , 这使训练有素的模型难以解释和有意义 , 而且很难在非学术环境中立即找到它的用途 。
此外 , 自动化工具套件的范围要窄得多 , 只解决了问题的一部分 , 几乎没有增值 。
AutoML自此走过了漫长的道路 。 事实上 , 它在大多数流行的机器学习库、开源工具和主要的云计算平台中无处不在 。
商业上可用的自动化工具使得功能工程和复杂机器学习模型的开发变得非常简单 , 只需点击几下按钮 , 就能让商业用户将这些模型部署到生产状态 。
随着这些更强大的自动化工具的激增 , 新的问题出现了 , 例如:
我们应该使用AutoML吗?
如果是这样 , 什么时候应该或不应该使用它们?
我们能期望结果比手工模型更好吗?
这些工具能否更进步 , 完全取代数据科学家?
盲目地优化指标可能会增加偏见
当我们评估AutoML时 , 我们必须认识到 , 性能并不是全部 , 偏见在AI中可以发挥重要作用 。 将人类数据科学家排除在这个过程之外并不一定会导致无偏见的结果 。
例如 , 电脑不知道只使用白人的脸来训练人脸识别算法有什么问题 , 也不知道这样做的结果是当手机面对非白人用户的脸时可能无法解锁 。
因此 , 通过检查和校正某个种族、性别或阶级比另一个种族、性别或者阶层更有优势的模型来减轻偏见是数据科学家的责任
事实上 , 在任何行业 , 存在偏见都可能对企业产生负面影响 。
最近在《科学》杂志上发表了一个关于医疗领域存在偏见的例子 。 我们讨论的算法是为了观察哪些病人会从高风险的护理管理项目中受益 。 报告称 , 这是一种用于确定美国2亿多人护理水平的常规算法
这篇文章的作者发现 , 该算法错误地判断出需要此类护理计划的黑人比白人要少——尽管数据集中的黑人患者比白人患者的慢性疾病多26.3% 。
出现这种错误有两个原因:
首先 , 该算法使用上一年的个人总医疗费用来确定护理需求 。
由于黑人公民往往比白人公民更穷 , 他们在医疗保健上的花费更少 , 不管他们实际上需要多少医疗保健 。
其次 , 用于训练算法的数据集包含的白人数据是黑人数据的7倍 。
同样 , 路透社(Reuters)在2018年指出 , 亚马逊多年来在招聘过程中使用的算法不公平地将女性求职者排除在外 。
事实上 , 招聘算法是通过分析过去十年提交给亚马逊的简历模式来训练的 。 由于绝大多数申请者是男性 , 该算法了解到男性候选人更有可能被选中 。
该算法还降低了“包含‘女子’(如‘女子象棋俱乐部队长’)字样的简历得分 , 并降低了两所女子学院毕业生的得分 。 ”
这只是偏见可能潜移默化地影响商业决策的两个例子 。
考虑到基于人工智能的程序被广泛用于为此类决策提供信息——其中一些会影响数亿人——企业必须意识到偏见 , 并采取一切可能的措施消除或减轻这些偏见 。
最佳数据科学模型:人类+人工智能
尽管如此 , 尽管存在未被发现的偏差带来的风险 , 我们相信使用AutoML开发模型的便捷性和时效性使其成为每个数据科学家和数据科学部门都应具备的工具
它是一种低成本、高潜力的工具 , 至少为人工方法提供了可靠的性能基线 。
在最好的情况下 , AutoML将比人类更快地完成这一工作 , 并且还能生成更好的模型
数据科学家需要确保 , 他们用来设计模型的假设和用来训练模型的数据不会导致意外的结果 。
缺乏AutoML应用的最终原因可能是一些数据科学家担心AutoML将很快使他们变得多余 。
这与上世纪80年代初微软推出Excel时会计们的担忧类似 。
Excel并没有像他们担心的那样让会计师们失业 , 而是让他们的工作变得更容易 , 使管理财务文件的许多繁琐任务自动化 。
同样 , 我们相信AutoML将使数据科学家更有效率 。
使用自动化工具的数据科学家可以将更少的时间花在这些任务上 , 而将更多的时间花在更高价值的工作上 , 比如应用领域和行业知识 , 而不是将时间花在迭代和调整模型上 。
考虑到数据科学家的匮乏和高成本 , 这种转移资源的能力应该受到商业领袖的欢迎 。
数据科学家可以放心 , 因为他们不仅可以继续在AI发展中发挥核心作用 , 而且必须继续发挥这样的作用 。
如果公司想要避免自动化中的偏见带来的不可预见的后果 , 那就必须将人放在数据建模的中心地位 。
【动了数据科学家的奶酪?AutoML为何缺乏应用】这是该文章的第一部分 , 第二部分我们将着眼于AutoML的优势和局限性 , 并强调人类在AI项目中扮演的关键角色 。
推荐阅读
- 科技日报|功能性玉米被端上餐桌 这个数据库帮了大忙
- 中国青年报|中国科学家历时16年找到蝗灾真凶 绿色防控成为可能
- 美国疫情比想象更严重!英美发现大问题,或将推翻此前所有数据
- 每年存一万或缴纳社保,哪种方式更合适养老,别急,让数据说话!
- 开黑新使者|到底谁才是迈特凯?Theshy和Nuguri数据对比,牛老师参上!
- 中年|画像“标签”生产实操指南(二)之产出清晰的标签数据需求
- 数据中心|为什么下一个十年的大战场在数据中心?
- 超级计算机|他们搬动了百万行代码“大山”
- 联邦机构窃取用户数据,美国竟觉得完全“合理合法”
- mmmoyuf|荒野乱斗新一轮英雄整改解密!格尔、瑟奇数据被下调,黑鸦哭了
