![数据仓库、数据湖、流批一体,终于有大神讲清楚了](http://img.jiangsulong.com/220417/143931D44-11.jpg)
文章插图
3.2 基于HSAP的大数据架构
HASP系统接入到我们刚刚简化的架构中就成为非常的完美的大数据架构 。HSAP系统与Flink做维表关联,对离线数据做批处理,然后对接在线应用提供在线服务,例如报表、大盘等 。
![数据仓库、数据湖、流批一体,终于有大神讲清楚了](http://img.jiangsulong.com/220417/143931K15-12.jpg)
文章插图
3.3 PostgreSQL生态
那么接入HSAP系统之后,在线应用和系统怎么样来用呢?为了减少使用难度,就要引需要一个生态系统来做支撑,经过我们反复调研,我们认为是PostgreSQL,主要有以下几点:
1)丰富的工具对接
PostgreSQL具有非常完备的工具对接,不管是开发工具还是BI分析工具,都有着丰富的支撑能力 。
2)详尽的文档支撑
通常来讲写文档需要耗费大量的时间,PostgreSQL有着非常详尽的文档,如果能够直接复用PostgreSQL的文档,将会减少工作量 。同时开发者们只需要根据postgreSQL文档来开发,减少学习成本 。
3)多元化的扩展
PostgreSQL有着非常多元化的扩展,例如地理信息的PostGis,Matlab等,开发者们可以根据业务需求选择对应的扩展 。
![数据仓库、数据湖、流批一体,终于有大神讲清楚了](http://img.jiangsulong.com/220417/14393154Q-13.jpg)
文章插图
新一代的实时交互式引擎--Hologres基于以上所有内容,进入到我们今天的重点主题,也就是我们在阿里云重磅发布的新一代实时交互式引擎,中文名叫交互式分析,英文名叫Hologres 。Hologres这个名字怎么来的呢?Hologres由Holographic(全息宇宙)和Postgres组成 。
![数据仓库、数据湖、流批一体,终于有大神讲清楚了](http://img.jiangsulong.com/220417/1439313236-14.jpg)
文章插图
4.1 Hologres的架构
Hologres的架构比较简单,从下往上看,最底层是统一的存储系统,可以是阿里云统一的Pangu、业务的HDFS或者OSS、S3等,存储上面是计算层,提供类似的MMP架构计算服务,再往上是FE层,根据查询信息将Plan分发到各个计算节点,再往上就是PostgreSQL生态的对接,只要有JDBC/ODBC Driver就能对Hologres做查询 。
![数据仓库、数据湖、流批一体,终于有大神讲清楚了](http://img.jiangsulong.com/220417/143931J61-15.jpg)
文章插图
4.2 Hologres:云原生
1)存储计算分离
Hologres的架构是完全是存储计算分离,计算完全部署在K8s上,存储可以使用共享存储,可以根据业务需求选择HDFS或者云上的OSS,这样用户就能根据业务需求对资源做弹性扩缩容,完美解决资源不够带来的并发问题 。
![数据仓库、数据湖、流批一体,终于有大神讲清楚了](http://img.jiangsulong.com/220417/1439311048-16.jpg)
文章插图
2)存储优势
·全异步:支持高并发写入,能够将CPU最大化利用;
·无锁:写入能力随资源线性扩展,直到将CPU全部写满;
·内存管理:提供数据cache,支持高并发查询 。
![数据仓库、数据湖、流批一体,终于有大神讲清楚了](http://img.jiangsulong.com/220417/14393145b-17.jpg)
文章插图
3)计算优势
·高性能混合负载:慢查询和快查询混合一起跑,通过内部的调度系统,避免慢查询影响快查询;
·向量化计算:列式数据通过向量化计算达到查询加速的能力;
·存储优化:能够定制查询引擎,但是对存储在Hologres数据查询性能会更优 。
![数据仓库、数据湖、流批一体,终于有大神讲清楚了](http://img.jiangsulong.com/220417/1439315M1-18.jpg)
文章插图
4.3 基于Hologres的典型应用
【数据仓库、数据湖、流批一体,终于有大神讲清楚了】下面给大家介绍一下,Hologres在阿里巴巴内部的一个典型应用 。数据实时写入至Flink,经由Flink做实时预处理,比如实时ETL或者实时训练,把处理的结果直接写入Hologres,Hologres提供维表关联点查、结果缓存、复杂实时交互、离线查询和联邦查询等,这样整个业务系统只需要通过Hologres来做唯一的数据入口,在线系统可以通过PostgreSQL生态在Hologres中访问数据,无需对接其他系统,这样也能解决之前架构的各种查询、存储问题 。
![数据仓库、数据湖、流批一体,终于有大神讲清楚了](http://img.jiangsulong.com/220417/1439315H4-19.jpg)
文章插图
4.4 真正的实时数仓:Flink+Hologres
综上所述,我们认为,真正的实时数仓只需要Flink+Hologres即可,Flink做流、批数据的ETL处理,将处理的数据写入Hologres做统一的存储和查询,这样业务端直接对接Hologres提供在线服务 。
![数据仓库、数据湖、流批一体,终于有大神讲清楚了](http://img.jiangsulong.com/220417/1439312F0-20.jpg)
文章插图
推荐阅读
- 架构设计 | 高并发流量削峰,共享资源加锁机制
- 24张图,九大数据结构安排得明明白白
- 自动补全、回滚!介绍一款可视化 sql 诊断利器
- 用Python连接4个常用数据库的URL写法,你掌握了吗?
- 关于Oracle数据库12c 新特性总结
- |何时是我们要毫不犹豫地选择辞职、无需思前顾后的时候?
- 汽车|上海推动工业企业复产!特斯拉、上汽即将复工
- 注意避坑!霸王条款、隐瞒车况……二手车猫腻多
- 怀疑车辆被安装GPS定位、该如何检测?
- 淘宝怎么分析竞品的数据 如何对竞品进行分析