InfoQ一个数据挖掘者的自我修养:数据科学家头衔很光鲜,但全栈工程师才是本质( 三 )


  • 坚定的心:时刻坚持业务导向 , 业务目标永远是大数据应用的终极方向;
  • 融入血液:形成“从数据中挖掘价值 , 数据驱动业务”的企业文化 , 只有从管理层到一线员工形成数据价值的统一认知 , 才能真正把数据用起来;
  • 锻炼肌肉:通过培训竞赛知识分享 , 提升员工的数据分析能力 , 只有为分析人员赋能之后 , 才可以利用数据为企业赋能;
  • 数据质量:一方面要强化数据质量管理 , 好的数据才能分析出有用的结论;另一方面要对企业的数据有信心 , 有人总担心自己的数据太差分析不出结果 , 大量的实践证明金融业的数据可以开花结果;
  • 【InfoQ一个数据挖掘者的自我修养:数据科学家头衔很光鲜,但全栈工程师才是本质】稳中有进:金融业缺乏互联网企业允许试错的基因 , 注定了系统架构和业务应用等规划都要一步一个脚印去走 , 以成熟技术为基础来建设 , 同时适度进行创新;
  • 思辨精神:不盲从于算法的神奇 , 不拒绝实用的查询统计 , 没有包打天下的终极算法 , 但是可以找到最适合企业自身的分析套路 , 注重分析所带来的效果以及分析思路的合理性;
  • 大道至简:最准确的模型未必就是最好的模型 , 它常常是昙花一现的过度拟合 , 真正能长期稳定有效的模型总是简单易懂的 , 坚持奥卡姆剃刀原则 , 坚持数据分析的极简主义 。
问题和数据比算法更重要 百货商店之父约翰·沃纳梅克(John Wanamaker)曾说过一句在数字化营销领域赫赫有名的话:“我知道花费在广告上的投入有一半是无用的 , 但问题是我不知道是哪一半 。 ”
数据分析包含三个要素:问题、数据、算法 。 其中 , 业务问题和业务目标是数据分析的起点和终点 , 数据是分析的基础和原料 , 算法是用于加工这些数据原料的工具 。 大部分项目的成功 , 这三个要素缺一不可 , 而前两者更是重中之重 。 在张磊以往参与建设的那些项目实施中 , 给他留下深刻印象的并非一个个神奇的模型 , 而是一些大家耳熟能详的名词:业务问题、数据加工、模型评估、应用策略 。
找到真正对企业有价值的业务问题 , 制定合理可行的具体目标 , 及时提供真正可用的高质量数据 , 加工出更具业务含义的数据特征 , 这些工作都依赖于业务岗、数据岗和分析岗的紧密合作来完成 。
数据团队角色分工 张磊曾经与咨询公司一起帮国有大型银行规划其分析团队 , 国外领先实践中也把这个团队称为“业务分析能力中心”(BACC) 。 这个团队的理想组成是分三类岗位:业务岗、数据岗和分析岗 , 人员配比通常是 2:3:5 , 而分析建模的工作量占比通常不超过项目总工作量的 10% 。 业务岗是分析团队和业务部门沟通的桥梁 , 通常是从业务部门或分行抽调的业务骨干 , 他们熟悉业务流程和业务问题 , 能够把分析团队的成果与业务应用结合起来;数据岗是传统的数据库管理和 ETL 岗位 , 要求熟悉数据库理论与技术、SQL 语言玩得滚瓜烂熟、ETL 脚本稳定高效;分析岗的人力配比最高 , 但并非每个人都是建模高手 , 实际上这部分人更像是万金油的角色 , 除了熟悉常用的算法 , 还要同时能承担业务岗和数据岗的部分工作 , 换句话说 , 一旦需要他们就可能变成数据岗或业务岗 。
张磊强调 , 有太多分析建模人员把自己视为高端人才 , 只愿意做算法建模的工作 , 不愿意做数据整理这些体力活 , 不愿意深入了解业务知识 , 就如同一位厨师既不愿意了解食材的特性 , 又不愿意了解顾客的口味 , 怎么能指望他做出一道美味佳肴呢?数据科学家这个头衔很光鲜 , 但全栈工程师才是它的本质 。 因此 , 从职业发展的角度来说 , 岗位轮换是一项很好的制度 , 一方面能让员工掌握更多更全面的技能 , 另一方面也有利于团队的稳定 。


推荐阅读