阿里巴巴|【技术史】数据中台的前世今生

阿里巴巴|【技术史】数据中台的前世今生

文章图片

【阿里巴巴|【技术史】数据中台的前世今生】阿里巴巴|【技术史】数据中台的前世今生

文章图片


简介:数据中台自14年至今 , 已然成为了2B、2G业务最热门的话题 , 政府机构、企事业单位、互联网公司等进行着数字化、数据化、智能化转型 。 市场普遍认为 , 阿里巴巴将自身数据中台建设能力对外赋能是拉起本轮数据中台浪潮的根本所在 。
数据中台自14年至今 , 已然成为了2B、2G业务最热门的话题 , 政府机构、企事业单位、互联网公司等进行着数字化、数据化、智能化转型 。 市场普遍认为 , 阿里巴巴将自身数据中台建设能力对外赋能是拉起本轮数据中台浪潮的根本所在 。
本文将带你全面了解阿里巴巴做数据中台的历史 。
1、缘起
在2014年以前 , 阿里巴巴有很多条业务线 , 都有自己的ETL团队 , 每个ETL团队建设和维护自己的数据体系 。 当时许多人认为 , 这种自下而上的自给自足能够最高效地满足业务需求 。 也因此 , 各个ETL团队之间缺乏相互信任 , 也缺乏最大化互通的可能性 。
即便在2020年的很多公司 , 这种现象也普通存在 。 不同部门、不同业务、不同系统之间都有自己单独的ETL处理体系 , 每个ETL体系只关注与自己垂直业务相关的需求 , 并从底向上完整支撑业务体系 。 这种情况的出现 , 大多是由于业务发展迅速 , 为了快速低成本的满足业务数据需求 , 单独拉出数据支撑团队造成的 。
对于当时的阿里巴巴而言 , 这种分散数据处理体系带来了很多问题 。 以日志采集数据为例 , 就同时存在若干份数据:淘宝数据基础层、广告数据基础层、搜索数据基础层各有一份日志数据 , 不仅直接耗费了非常多的存储资源 , 更重要的是扼杀了数据中间层和数据应用层等复用的可能性 。

图2014年以前阿里巴巴分业务自建数据体系的抽象图
下图展示的是2014年以前 , 阿里巴巴各个数据团队建设的数据任务关系图 。 每个圆形代表着一条业务线的数据任务集合 , 任意两个圆形之间的连线代表着两者的关系 。 由此可见:数据处理流向是混乱的、无方向性的;数据管理是无序的 , 基本处于失控状态;除了浪费研发资源和存储资源 , 也必然满足不了业务需求 。

图阿里巴巴数据公共层建设之初计算环境1上的数据任务关系图
业务猛烈发展与数据支撑能力不匹配产生了巨大的矛盾 , 也促使阿里巴巴内部开始进行数据公共层的建设 , 数据公共层旨在可持续地建设阿里巴巴智能大数据体系 。
2、发展
  • 从零散的数据到统一的数据
从2014年起 , 阿里巴巴启动数据公共层建设项目 , 以OneData体系特别是方法论为指导 。
数据公共层建设初期是为了消除因\"烟囱式\"开发给业务带来的困扰和技术上的浪费 。 而OneData体系是保障和推进项目建设的关键 。 OneData体系一方面致力于数据标准的统一 , 另一方面追求让数据变为资产而非成本 。 OneData体系除了方法论 , 还包含工具型产品、规范等 , 具体体现为:数据规范定义、数据模型定义、模型智能化设计、规范ETL开发、落实数据规范和模型定义的研发工具、对于整个体系的自动化调优和监控 。
通过建设统一的ODS数据基础层 , 建设基于业务应用或需求来源端的抽象数据逻辑层来丰富数据中间层 , 允许数据应用层的百花齐放来打造阿里巴巴数据公共层 。 从而将零散的数据变为统一的数据 。
  • 从数据孤岛到数据融通
在业务突飞猛进发展过程中 , 不同的事业部、业务条线会为了快速实现需求 , 数据单独定义、存储、使用 , 从客观性来讲 , 每个发展壮大的企事业单位都避免不了数据孤岛的产生 。 数据孤岛不仅包含物理孤岛(独立存储、维护、使用) , 而且包含逻辑孤岛(定义不一致、计算逻辑不一致) 。
阿里巴巴创新性的创建OneID体系 , 将所有业务范围(电商、金融、广告、物流、文化、教育、娱乐、设备、社交等)中的人、货、场、物、钱等实体打通 , 解决体系内逻辑性数据孤岛问题 。 在阿里云的强力支撑下 , 集团内所有隔离数据进行统一的存储和管理 , 解决体系内物理孤岛问题 。
从数据孤岛到数据融通 , 使得数据拥有创造价值的可能性 。
  • 从授人以鱼到授人以渔
从以定制化开发的方式将数据交付到业务人员 , 到基于数据规范但需要配置 , 再到全链路数据打通 , 直到主题式服务 , 阿里巴巴一次次努力追求的正式从授人以鱼到授人以渔 。
2012年前后 , 服务于1688有超过300多个API , 梳理后发现这些API之间无法整合 , 因为每个API只服务于一个业务应用而不能被共享 , API应用的数据应用层数据表也不能被共享 。
从2012年至2016年 , 阿里巴巴通过OneService体系将API数据服务从物理表SQL模式升级至面向主体查询逻辑模型的SQL模型 , 大大提升了系统的可用性 , 也使得数据中台面向业务人员使用变成了现实 , 达到了授人以渔的目标 。
3、从数据成本到数据价值
对于大部分企业来说 , 业务系统创造的数据不仅需要占据大部分的存储空间 , 而且还需要技术人员持续维护 , 是一笔不小的成本开支 。
阿里巴巴致力于将数据从成本中心变为资产中心 , 在业务数据化与数据业务化两大方向 , 数据赋能业务、驱动创新四大业务场景上取得了丰硕的成功 。
数据中台赋能业务、驱动创新的四大典型场景包含:全局数据监控、数据化运营、数据植入业务、数据业务化 。
全局数据监控 , 如战略决策的智能方案:最大限度降低数据分析的难度 , 最大程度提高数据分析效果 , 同时不动声色中传递品牌价值 , 以高效优质地辅助战略决策和数据化运营 。

图双十一数据大屏&银泰互动大屏
数据化运营 , 如用户管理的智能方案:基于全链路全渠道的数据构建、数据连接与萃取管理体系 , 对用户进行全生命周期的精细化管理(如智能CRM) 。
2017年热播的一部电视剧 , 该电视剧在优酷土豆独家播放十天 , 播放量就突破了60亿次 , 属于\"现象级IP\" 。 但这样的\"现象级IP\"并不是偶然产生的 , 除资本投入因素外 , 数据化运营在其中发挥了巨大的作用 。
事前通过舆情分析锁定IP , 及时独立采购IP;事中实时监控流量变化、播放情况 , 及时调整流量入口 , 有针对性的推送用户;事后 , 及时总结和复盘 , 进行用户沉淀 , 挖掘相似内容 , 形成闭环 。
数据植入业务:智能图像鉴别 , 智能客服 。 通过数据模型算法 , 将图像鉴别从手工变为自动化 , 节省95%以上工作量 。

图数据智能植入业务系统
图数据智能植入业务系统
数据业务化 , 如零售管理的智能方案:规避传统零售的松散式管理 , 将库存、定价、补货、销售等统一协同 , 整体提升线上线下零售体验和效果(如生意参谋) 。
4、集大成
到今天为止 , 阿里云数据中台体系(核心产品:Dataphin、QuickBI、Quick Audience、Quick A+)经历了阿里几乎所有业务的考验 , 包含新零售、金融、物流、营销、旅游、健康、大文娱、社交领域 。 在此过程中 , 云上数据中台除了形成自己的内核能力外 , 更向上\"赋能业务前台\"、向下与\"统一计算后台\"连接并与之融为一体 , 形成云上数据中台业务模式 。
同时 , 阿里巴巴从2018开始 , 将自身的数据中台能力向外输出赋能 , 对社会创造更多价值 。
作者:数据中台君
本文为阿里云原创内容 , 未经允许不得转载 。


    推荐阅读