InfoQ一个数据挖掘者的自我修养:数据科学家头衔很光鲜,但全栈工程师才是本质( 二 )


以业界常用的一些算法来说 , 二十年前传统简单的 BP 神经网络似乎已经走到尽头开始没落 , 二十年后 AlexNet、VGG16、Inception、RNN、LSTM、GAN 等深层神经网络模型层出不穷让人眼花缭乱;二十年前业界还在为决策树在行业应用中的简洁有效而欢欣鼓舞 , 二十年后随机森林、GBDT、XGBoost、LightGBM 已经实现了全面超越;二十年前大家还在使用向量空间模型、朴素贝叶斯、SVM 来分析文本 , 二十年后 BERT、XLNet 已经大行其道 。
虽然数据、算力、算法三个因素对于人工智能新一轮浪潮的推动同样功不可没 , 但张磊认为 , 以深层神经网络为代表的深度学习算法并未超越传统神经网络的基本框架 , 算法的发展还是落后于数据发展的速度 , 当然终究还是会水到渠成实现同步 。
金融大数据演进的四个阶段 每一朵浪花 , 都有可能变成泡沫 , 也有可能形成大潮 , 大数据属于后者 。 经过二十年的演进 , 大数据已经脱离技术炒作巅峰 , 进入实质生产的高峰期 , 并进一步成为其他技术(如人工智能)的底层支撑 。
据工信部、赛迪网等相关数据 , 2020 年国内大数据市场总体预计达到万亿元规模 , 硬件、软件和服务是其中的三大部分 , 而对分析人才和分析服务的需求最为迫切 。
除了互联网行业 , 金融业可以说是跟进和采用大数据、人工智能等前沿技术最快的行业 。 无论是国外还是国内 , 金融行业的数据分析成熟度都位居前列 。 从银行、保险到证券业 , 大数据平台已经成为企业越来越倚重的系统 , 数据中台的呼声让它不断拉近与核心系统的距离 。 从数据大集中、数据仓库、云平台、数据湖 , 到商业智能、数据挖掘、人工智能 , 再到个人金融、公司金融、风险部、客服中心 , 大数据的架构、技术和应用已经逐步在金融业特别是银行得到普及 。
对于过去十年金融业大数据的发展和演进 , 张磊认为可以借鉴托马斯·H·达文波特教授对数据分析成熟度的划分方式将其划分为四个阶段 , 他用自己的话对其做了翻译 , 分别是星星之火(Localized Analytics)、开始燎原(Analytics Aspirations)、江山一统(Analytic Companies)、傲视群雄(Analytic Competitors) 。 这四个阶段形象地展示了企业或行业在数据分析应用上的发展阶段 , 从早期少量人员开始使用数据分析的星星之火 , 到部门级搭建一些分析系统 , 再到整个企业形成全面统一的分析体系 , 最终的目标是将分析作为核心竞争力的傲视群雄 。 而目前国内的金融企业大多处于第二阶段向第三阶段转变的 2.5 阶段 。
To B 大数据的经验和思考 在很多人看来 , To B 大数据都是脏活苦活累活 , 入行以来与众多金融企业、银行打过交道的张磊却有不同看法 。
从技术视角出发 , 张磊觉得 To B 的大数据分析其实比 To C 的好做 。 首先数据量要小得多 , 不会因为性能压力而放弃必要的分析尝试;另外 , 数据质量也比较可控 , 很少会怀疑数据的来源是否可信 , 这些都让 To B 的大数据分析相对简单 。 在他看来 , 做 To B 大数据最大的障碍还是在企业文化形成的壁垒上 , 有些企业多年来已经养成了依赖人的经验而不相信数据的习惯 , 部分岗位人浮于事提不出对企业真正有价值的业务问题 , 这些都会给数据分析项目蒙上阴影 。
正处于新时代的转型中场 , 金融业数据分析难免遇到新问题 , 比如引入了更多外部数据不知道怎么利用 , 看到互联网企业的业务创新却不知道如何应对 。 To B 大数据到底该如何做?基于在大量数据分析项目中的实践 , 张磊分享了一些自己的经验与思考 。
数据应用方法论 没有方法论就像“盲人骑瞎马 , 夜半临深池” , 越努力反而结果越差 , 因为可能走在与目标相反的方向而不自知 。金融业经过最近二十年在数据应用上的丰富实践 , 已经形成了很成熟的大数据应用方法论 , 无论是系统架构、应用框架 , 还是分析平台和团队建设等方面 , 都有成熟的体系化经验可供借鉴 。 张磊将其总结为如下几条:


推荐阅读