新智元|贾扬清发布阿里云「湖仓一体」解决方案,下一代大数据计算平台来了!
本文插图
新智元报道
【新智元导读】在今天的2020云栖大会上 , 达摩院数据库首席科学家李飞飞、阿里云计算平台高级研究员贾扬清等重磅发布多款云原生数据产品 。 「2020创新之源大会将于9月22日在中关村软件园召开 , 详细信息见文末海报 , 欢迎报名!」
达摩院数据库首席科学家李飞飞、阿里云计算平台高级研究员贾扬清 , 分别发布了云原生分布式数据库PolarDB-X、离线实时一体化数据仓库MaxCompute等多款云原生产品 。
今天阿里巴巴也宣布成立云原生技术委员会 , 云原生升级为阿里技术新战略 , 委员会将大力推动阿里经济体全面云原生化 , 并沉淀阿里巴巴10多年的云原生实践 , 对外赋能数百万家企业进行云原生改造 。
2009年 , 阿里巴巴首次上线核心中间件系统 , 到2011年淘宝天猫开始使用容器调度技术 , 再到推出自研云原生硬件神龙服务器、云原生数据库PolarDB 。 2019年双11 , 阿里电商核心系统100%上云 , 这也是全球规模最大的云原生实践 。
本文插图
贾扬清:建设数仓可以像买office 一样简单2019年初 , 贾扬清加入阿里巴巴 , 带领大数据计算和机器学习平台 , 并出任阿里巴巴开源技术委员会负责人 。
他是深度学习领域的风云人物 , 不到30岁就成为著名框架Caffe的核心作者 。 网友戏称 , 学物理绕不开牛顿 , 搞深度学习 , 绕不开贾扬清 。
今天贾扬清为不仅带来了两款重磅大数据产品 , 还分享了大数据技术相关的方法论 。
本文插图
如何存储和分析数据 , 如何从数据当中提取出规律和价值 , 一直是计算机领域的一个核心问题 , 贾扬清认为 , 数据的存储和分析经历了四个历史阶段 。
第一个阶段是数据库时代 ,Oracle、SQL Server、MySQL、PostgresSQL 等数据库成为主流的计算机系统当中不可或缺的组成部分 。
第二个阶段 , 工业界开始考虑怎么样解决数据的体量 , 速度 , 和多样性问题 , 谷歌在2014年前后发表的3篇经典论文(GFS、MapReduce和BigTable) , 奠定了这个时期的基本方法论 , 实现了分布式的存储、计算和服务等等这一系列的能力 。
第三个阶段 , 21世纪的第二个十年 , 随着移动互联网的普及 , 大数据计算开始进入了蓬勃发展的阶段 , 以Hadoop、HDFS为代表的开放的存储元数据的能力及Hive、Spark、Flink为代表的原子计算能力应用而生 。
今天大数据已经进入了普及期 , 每一个行业都会需要建立自己的数据中台 , 从中挖掘出数据的价值 , 推动业务的决策 , 数据湖和数据仓库以及他们之间的有机结合 , 将越来越重要 。
本文插图
贾扬清重磅发布数据湖系列新品
贾扬清展示了如何在阿里云上实现简单快捷高效的数据湖体系 。
本文插图
在最底层 , 通过阿里云对象存储OSS作为数据库存储 ,大文件瞬时Rename、 加速缓存等都不是问题 。 OSS可以开放对接各类计算引擎 , 让上层的计算任务更加灵活 , 并且支持数据冷热全生命周期管理 , 打破数据孤岛 。
在OSS的上面是数据库构建产品Data Lake Formation , 它可以提供通用存储上的两个核心的功能 。
第一是统一的数据加速服务 , 可以让OSS存储像本地一样高效 。
第二是统一的元数据服务 , 所有上层的引擎都能够更加简单的理解、对接和了解数据的格式 , 方便多样化的上层分析计算和处理 。
而数据存储的目的还是为了计算 , 第三层开源大数据计算引擎E-MapReduce可以给数据湖提供灵活、高效的大数据计算能力 。
这样的体系结构 , 一方面为各种离线计算、流计算等提供了灵活底座 , 另一方面存储与计算架构实现了分离和容器化 , 让湖上的计算弹性和可扩展性更优秀 。
传统的观念认为 , 数据仓库构建非常困难 , 但是今天贾扬清说 , 建设数仓可以像买一套office 一样简单 。
7年前阿里巴巴自研的数据仓库 MaxCompute 在阿里云正式提供服务了 。
通过MaxCompute可以一键式的建立起自己的数据仓库 。 MaxCompute简单、免运维、容易扩展 , 同时完全兼容像HIVE这样的大数据开放标准 。
今天 , MaxCompute自研数仓实现了全面升级 , 传统的离线引擎 SQL Engine 和实时引擎 Hologres 可以实现无缝结合 , 在一套数仓存储上 , 提供离线、实时的计算和分析服务 。
作为技术深耕的自研数仓 , MaxCompute已连续2年在TPC-BB榜单上面蝉联冠军 。
以TPC-BB 30TB数据量的榜单为例 , 对比2019年的数据 , 性能提升了50%以上 。 成本下降了30%以上 。
数据仓库这么好 , 为什么还要搞数据湖呢?「数据湖和数据仓库在企业发展的不同时期发挥着不同的价值」 。
数据仓库的成长性很好 , 而数据湖更灵活 。 数据仓库支持的数据结构种类比较单一 , 数据湖的种类比较丰富 , 可以包罗万象 。 数据仓库更加适合成熟的数据当中的分析和处理 , 数据湖更加适合在异构数据上的价值的挖掘 。
那能否将二者的优势融合在一起呢?
今天 , 阿里将数据湖和数仓这两个产品体系融合 , 发布了湖仓一体 。
本文插图
湖仓一体实现了数据湖和数仓之间的无缝流转 , 打通了数据存储和计算的不同的层面 。
贾扬清介绍说 , 「湖仓一体的意义就是说我不需要看见湖和仓 , 数据有着打通的元数据的格式 , 它可以自由的流动 , 也可以对接上层多样化的计算生态」 。
湖仓一体 , 「它不是一个来自实验室的冥想的场景 , 而是一个来自于客户现场的真实需求」 。
之前的微博基于大数据的需求发展了数据仓库平台 , 基于AI的需求 , 发展了数据湖平台这两套大数据平台在集群层面完全是割裂的 , 数据和计算无法在两个平台间自由流动 。
MaxCompute产品团队和微博机器学习平台团队联合共建了湖仓一体的新技术 , 打通了MaxCompute云计算仓库和开源Hadoop数据湖 , 构建了一个跨湖和仓的AI计算中台 , 实现了湖和仓的统一智能化管理和调度 , 极大的提升了平台化服务能力 。
李飞飞:云原生点亮数据上云之路阿里巴巴集团副总裁高级研究员、ACM杰出科学家李飞飞 , 花名「飞刀」介绍了云原生分布式数据库 。
面对指数级增长的海量存储挑战 , 云原生分布式数据库应运而生 。
「云原生分布式数据库带来了四大特性 , 很好的解决了我们企业用户的核心诉求 。 从资源池化到弹性扩展 , 再到智能运维 , 再到离在线一体化 。 利用这些核心的特性 , 我们将数据库全面的进入云原生加分布式的时代」 。
那究竟什么是云原生分布式数据库呢?下面我们来一探究竟 。
云原生数据库基于Shared Everything+shared storage 的存储计算分离架构实现资源池化高效管理 , 同时兼具弹性高可用水平拓展的特性 。 什么是分布式呢?就是用Shared Nothing的架构 , 实现数据水平分片、水平扩展 。
「如果我们将两者完美的结合在一起 , 那就带来了我们的云原生分布式数据库 , 将Shared Nothing 和Shared Everything、shared storage 的特性完美的结合在一起」 , 阿里云自研的云原生分布式数据库PolarDB-X正式发布 。
本文插图
PolarDB-X是阿里自主研发的基于Shared Nothing + Shared Everything、share storage 架构的云原生分布式数据库 , 专注解决超高并发存储 , 海量数据存储下的在线事务型数据库的瓶颈问题 。
今天发布的PolarDB-X两大全新企业级功能:混合负载 HTAP 和 全局二级索引透明分布式 , 将更高效地支持在线业务、高并发交易以及在线复杂查询的诉求 。
利用PolarDB-X的HTAP混合负载特性 , 同时覆盖高并发实时交易和部分在线数据分析处理的场景 。 实现高并发交易在线复杂查询加速一体化 。
智能混合负载技术、数据查询强一致技术、资源链路强隔离技术和在线分析加速技术 , 使在线交易和在线复杂查询的性能提升5到10倍 。
以天猫双11为例 , PolarDB-X连续多年稳定支撑天猫双11活动 。
在去年2019年的双11 , 阿里巴巴集团电商核心业务全面采用PolarDB-X , 支撑了高达每秒8700万次的TPS 峰值 , 每秒55万笔的交易订单 , 完美抵御了全球最猛最高的交易活动 。
PolarDB-X的这些新增特性 , 很好的解决了分布式云原生条件下在线事务型业务的痛点 , 在分析领域我们其实也面临着类似的问题和挑战 。
除了PolarDB-X , 李飞飞今天还带来了另一款重磅云原生数据仓库AnalyticDB 。
在2020年上半年 , ADB刷新了TPC-H的30TB性能榜单世界纪录 , 相比第二名 , 微软的SQL server 2019性能提升290%以上 , 性价比低至1.46 , 成为首个登上榜单的榜首的国内厂商 。
云原生Serverless的架构 , 有效的降低了企业数据分析和计算的成本 , 性能较自建的分析系统 。 例如spark 提升300%以上 , 可实现一分钟弹出300个节点参与计算中 , 通过Serverless方式大大降低使用成本 。
本文插图
云原生数据仓库AnalyticDB和数据湖分析DLA已经在国内多个用户落地 , 有效的实现了企业降本增效 , 数据分析离在线一体化的目标 。
曾震宇:数据中台 , 构筑城市数字孪生
大会期间 , 阿里云还首次发布了城市大脑3.0的核心技术体系 , 包括感知、认知、决策和协同四个领域的技术 。
本文插图
阿里云智能数字产业产研总经理曾震宇表示 , 「没有行业智能的数据中台是没有灵魂的 。 数据中台的终极目标是数据价值反哺业务价值 。 」
城市是典型的数据密集型场景 , 巨大的物理空间 , 密布着每分每秒增长的海量数据 。 城市大脑建立在对数据的融合和洞察之上 , 为城市提供数字化的基础设施 。
城市大脑 , 自从2016年在杭州落地至今 , 经历了1.0 对「交通」方面的探索 , 到2.0交通、卫健等多个领域的探索 。
城市大脑3.0时期 , 从融合感知、实时认知智能、自动决策智能 , 再到跨域协同的闭环 。
本文插图
一方面 , 实现从单点智能到全局智能的视角提升;另一方面 , 沉淀出城市大脑核心技术体系 , 优化城市内不同领域的共性问题 。
同时 , 曾震宇介绍了阿里云城市数据中台重磅升级 。
本文插图
最底层 , 多元空间数据 , 将城市的物理空间进行数字化还原 , 形成静态的物理空间世界 。 同时借助各类感知数据构成城市的动态运行世界 。
本文插图
动态和静态的融合组成了城市的数字孪生 。
从全息数字构建、多分辨率实时推演、全局资源调度优化到全域多端系统共治形成从感知智能、认知智能、决策智能到组织智能的闭环 。
数据中台能够融合城市的GIS自然资源数据、建筑BIM、CAD数据 , 以及高精路网等数据 , 打通不同的数据格式 , 从而构建二三维一体的数字化物理空间 。
本文插图
从宏观的全貌 , 到围观细节 , 都可以窥见 。
同时通过实时推演技术 , 能为城市管理提供靠谱的建议 。
实时推演已经在杭州湾跨海大桥开启探索应用 。 杭州湾大桥全长36千米 , 是连接上海和宁波两大城市的唯一路上通道 , 日交通量超过4.8万辆 。
「比如 , 大桥上发生了交通故事 , 城市大脑第一时间能感知到 , 并基于实时交通数据进行推演 , 给出不同疏导方式的推演结果——短时间封锁大桥还是始终保持通行 , 大脑知道哪种处理方案更高效 。 」
本文插图
精确还原
本文插图
基于城市数据中台的静态物理空间世界以及数字化还原能力 , 还开发出了城市数字基因产品 , 将城市空间切分成无数个单位空间 , 汇聚多元数据和算法 , 对单位空间的人口、经济、生态、资源等情况 , 进行量化计算 , 用互联网数据思维管理城市每一寸空间 。 通过AI辅助决策 , 在规划层面识别修正城市发展的更深层次问题 。
本文插图
中关村软件园20周年 , 品牌活动“创新之源”大会再升级!
9月22日 , 2020创新之源大会 —“科技力量创变未来”在中关村软件园国际会议中心召开 。 大会由中关村软件园主办 , 中关村软件园孵化器、新智元、北京银行共同承办 , 邀请到清华大学副校长、北京量子信息科学研究院院长薛其坤院士 , 清华大学电子工程系主任、信息科学技术学院副院长汪玉 , 科大讯飞联合创始人、讯飞创投董事长徐景明 , 搜狗公司CEO王小川 , 网易集团副总裁、网易有道CEO周枫 , 达闼科技创始人兼CEO黄晓庆 , 浪潮信息副总裁、浪潮AI&HPC总经理刘军, 腾讯自动驾驶业务中心总经理苏奎峰 , 新智元创始人兼CEO杨静等重磅嘉宾出席 。
本文插图
【新智元|贾扬清发布阿里云「湖仓一体」解决方案,下一代大数据计算平台来了!】
推荐阅读
- 三星堆遗址|直击三星堆发布会|雷雨:四号坑灰烬中发现纺织品痕迹
- 新冠疫苗|新冠疫苗需要打几针?哪些人群不能接种?长沙疾控权威发布!
- 高血脂|聚焦2021CROI大会,发布多项关于日常服药引发血脂问题的研究
- 新冠病毒|新冠病毒联合溯源研究报告发布前,中方专家组组长释放大量信息
- nasa|NASA发布“毅力号”在火星发射激光的录音
- 运载火箭|航天民企火箭派发布首型液体运载火箭达尔文一号,明年底首飞
- 青岛|青岛发布大雾黄色预警!3股冷空气!降雨马上到!
- 草地贪夜蛾|今年草地贪夜蛾预计见虫面积4000万亩 防控方案发布
- 神经网络|科学家发布惊人理论:宇宙可能是一个巨大的神经网络,真是活的?
- 急性心肌梗死|AHA发布急性心梗合并心源性休克科学声明,药物首选去甲肾上腺素
