今日必看|数据科学何以成为第二个MBA?( 二 )


更重要的是 , 假如某个项目无法正常工作或模型无法正常出产 , 自动流水线不承担任何责任 。
优秀的数据科学家会找出解决出产题目的方法 , 创建针对该项目的机器学习管道以减少此类题目的发生 。
今日必看|数据科学何以成为第二个MBA?
本文插图

代码运行者的心态
我一直对所谓的“新数据科学家”持怀疑立场 。 我几乎天天都会碰到自称数据科学家的人 , 而他们不外是光荣的代码运行者 , 只运行代码却不了解代码背后发生的事情 。
跟着越来越多的学院和研究所提供新手训练营课程 , 涌现了许多代码运行职员 。 常常有人问我 , 是应该参加XYZ研究所的认证课程 , 仍是应该参加ABC学院的新人训练营 。 我的回答是都不要参加 。
这些承诺可以大批培养数据科学家的机构主要都是以赚钱为主 。 浏览几个笔记本、运行别人的代码并不能保证终极能成为一名真正的数据科学家 。
别误会假如有人通过自上而下的方法学习得很好 , 先运行代码 , 然后深入阅读其背后的原理 , 这是相称不错的 。 但是 , 数据科学不仅仅是运行代码 。 在没有真正了解所有代码背后的数学和理论之前 , 都不能声称把握了数据科学 。
今日必看|数据科学何以成为第二个MBA?
本文插图

邓宁-克鲁格效应
今日必看|数据科学何以成为第二个MBA?
本文插图

邓宁-克鲁格效应是一种认知偏差:一个对某些话题知之甚少的人会高估自己的能力 , 由于不知道自己对这一领域知识的匮乏 。 在数据科学领域常常能看到这一现象 。
【今日必看|数据科学何以成为第二个MBA?】实际上这就是新手效应 。 这个题目困扰着刚开始学习新技能的人群 。 我把数据科学家的经历分为三个阶段:
·邓宁-克鲁格阶段 。 创建了第一个模型 , 以为已经知道有关数据科学的所有知识 。
·一窍不通阶段 。 参加了某场会议或与同行交谈后 , 忽然意识到还有许多东西需要学习 。
·终身学习阶段 。 接受了这一事实:总会有一些不知道的新东西 , 因此追求数据科学是终身学习的过程 。
邓宁-克鲁格效应是大多数初学者都会面临的阶段 。 运行第一个程序并完美执行这个程序 , 其中的乐趣真的会把你带到世界巅峰 。 在这个阶段有这样的感触感染就不错了 。
然而 , 当新手无法走出现阶段 , 及时进入下一个阶段时 , 就会泛起题目 。 一些人深陷在这个阶段 , 他们对数据科学抱有错误的期望 , 以为数据科学很性感并且令人兴奋 , 但却没有熟悉到这一领域的深度 。
这种类型的人以为可以使用现有模型解决问题 , 在不了解数学的情况下就可以解决问题 。
我最近口试了一位在数据领域有两年工作经验的人士 。 他好像很有决心信念 。 曾在工作中使用过数据科学 , 曾介入过几个Kaggle项目 。
口试的前几分钟非常顺利 , 他对高级概念的理解非常到位 , 于是我决定更深入地了解他对项目中应用技术上数学方面的理解 。 于是画风突变 , 我请他说说有关日志丢失的功能 。 当他提到“我们有做这一功能的软件包时” , 我意识到 , 他从未离开过第一阶段 。
今日必看|数据科学何以成为第二个MBA?
本文插图

现成的软件包和课程正在让数据科学领域变得大众化 。 但这项工作还有许多地方需要学习 , 你得从实际经验、与人沟通以及不同的观点中不断学习 。
固然有些人以为数据科学是纯粹的编码工作 , 但这项工作不仅仅关乎能否成为超级编码巨星 。 数据科学在于找到对企业有用的题目并提出解决这些题目的最佳方法 。


推荐阅读