InfoQ一个数据挖掘者的自我修养:数据科学家头衔很光鲜,但全栈工程师才是本质

作者 |蔡芳芳 真正的革命并不在于分析数据的机器 , 而在于数据本身和我们如何运用数据 。 ——《大数据时代》维克托·迈尔 - 舍恩伯格
二十年 , 是一个什么概念?
对于大数据领域来说 , 过去二十年经历了从新兴到炒作巅峰再到实质生产高峰期的过程 , 并开启了一次重大的时代转型 。 被业界广泛认可的“大数据”定义由著名咨询公司 Gartner 的高级分析师道格拉斯·兰尼 (Douglas Laney)在 2001 年提出;大数据经典框架 Hadoop 则诞生于 2006 年;如今 , 大数据技术已经从 Hadoop 推动的第一代向更智能、更实时、面向交互的技术方向转变 。
而数据挖掘的历史比大数据要长得多 , 在数据量还远远没有今天如此庞大的时候 , 人们就已经想方设法从中挖掘价值 。 对索信达首席科学家张磊博士来说 , 过去二十年是见证数据挖掘和分析技术与应用高速发展的二十年 。
InfoQ一个数据挖掘者的自我修养:数据科学家头衔很光鲜,但全栈工程师才是本质
本文插图
张磊从读研开始进入数据挖掘和分析领域 , 博士毕业后一直在提供企业级大数据解决方案的知名厂商工作 , 从 Teradata 到 IBM、SAS , 他参与了横跨运营商到金融行业的数十个项目 , 有着丰富的从业经历 。 今年年初 , 张磊选择加入专注金融数字化服务的索信达 , 担任首席科学家 , 希望推动国内金融大数据行业朝着“拥抱开源、自主可控、信息融合、智能化”的方向前行 。 经过大量项目实践的磨练 , 他对于 To B 大数据业务和技术方案有哪些经验和独到的思考?他怎样看待金融大数据的过去和未来?做企业级大数据面临哪些难点和挑战?大数据人才团队该如何搭建?带着这些问题 , InfoQ 对张磊博士进行了独家专访 , 一探这位 20 年资深数据人对 To B 大数据的思考 。
数据分析的变与不变 翻看张磊的履历 , 可以看到他接近一半的人生都在跟数据打交道 。 唯有一段 , 本科毕业后在中科院等离子体物理研究所担任研究实习员的经历看似与数据无关 。 其实 , 正是这段经历让张磊有了跟数据挖掘的“第一次亲密接触” , 这比他接触到数据挖掘这个专业术语还早了四年 。
1993 年大学毕业后 , 张磊去了中国科学院等离子体物理研究所 , 在理论室工作 , 工作内容是数值计算 , 也就是协助理论室的老师们完成计算机上的各种数值分析和模拟工作 。 当时研究室的朱思铮老师找到他 , 希望能用神经网络来建模分析托卡马克装置中等离子体的位置和形状 , 于是张磊就一头扎进了 BP 神经网络算法之中 。 他清晰地记得 , 当时在图书馆里唯一能找到的一本教科书是焦李成老师编写的《神经网络系统理论》 , 在这本书的帮助下 , 他理解了 BPNN 算法 , 实现了 C 语言编写的程序 , 还尝试解决了 BPNN 算法中的一些问题(陷入局部最优、隐层神经元数量等) , 最终和朱思铮老师一起把研究结果写了篇文章发表在 1996 年的《计算物理》杂志上 。
1997 年读研的时候 , 张磊选择了数据挖掘方向 , 后来又在中科院计算技术研究所攻读数据挖掘与信息检索方向的工学博士 , 师从国内数据库权威王珊教授和杜小勇教授 。
从初次“触电”到现在 , 二十多年过去了 , 幸运的是 , 对张磊而言数据挖掘一直是件很有意思的事情 。 其中 1999~2002 年的读博时期和之后在外企工作的十多年对他尤为重要:前者让他更体系化、更有针对性地博览数据挖掘领域的科研成果 , 后者则让他在大量项目实践中不断去验证和思考什么才是真正合理有效的挖掘方式 。
数据挖掘的本质即从数据里找规律 , 张磊认为这个本质从未改变 , 改变的是找规律的方法 。
回顾数据分析的发展史 , 从十九世纪下半叶高尔顿、皮尔森开创描述统计学 , 到 1956 年人工智能和机器学习的诞生与发展 , 再到 2006 年深度学习的异军突起 , 人们一直在尝试各种方法努力从数据中发现隐藏的规律 。 而近些年计算能力的飞速提升和大数据的崛起 , 推动数据挖掘方法和分析算法不断进化 。


推荐阅读