文章插图
Hive Metastore 服务上文也有提到过,无论是离线任务的元数据也好,或者是对实时以及实时离线混部,它的元数据其实都是可以托管至 Hive Metastore。
文章插图
目前,Stateless 已经实现了 Public History Server 一系列的服务 。它是可以独立于集群实体而存在的,并且在集群运行的时候,这些作业就会上报数据到 Public History Server 服务 。用户可以直接地通过域名去访问,不用进行绑定 IP 这些比较繁杂的一些环节 。
文章插图
依托于云上产品生态,Stateless 也升级了日志服务,它基于 OpenSearch,最终数据落地在 TOS 上面 。面对数据的丢失,或者是数据磁盘的影响,这些用户都不需要去考虑和运维,但目前这部分功能还没有彻底的成熟,还需要一段时间完善 。
文章插图
关于调度服务,我们对 DolphinScheduler,Airflow 等这些具备调度能力的服务也做到了集成,为什么会去集成这些内容?是因为这些组件会去调创建集群的 API 任务,会随着调度系统里边的任务提交去触发,Stateless 把这些方法全部都集成服务化,用户无需自己去部署,可以直接做到一个开箱即用 。
文章插图
文章插图
最后,把用户服务化以及鉴权服务化的内容合并分享给大家 。第一是用户的服务化以及用户权限的服务化 。用户的服务化,就是把 LDAP 集成为统一的用户管理服务 。当然还是保留 LDAP 这一层级的,比如用户习惯用 LDAP 的 UI ,这些用户自己操作也没有任何问题,不用反复操作一个集群去导入用户的体系,这是收益最大的一件事 。
同理,Stateless 鉴权服务使用 Ranger ,因为 Ranger是 RBAC 的概念,而在 RBAC 的概念上面,Stateless还抽象了 RBAC 的这一层概念,让用户可以去做更丰富的权限的一套配置 。并且,这个权限和用户的系统是互通的,做到了一套用户系统加一套权限,可以覆盖所有的跟用户和角色权限相关的 RPC 模型,这也是Stateless演进过程中很重要的一个能力 。
Stateless 业务价值
最后跟大家分享一下 Stateless 的业务价值 。
文章插图
首先介绍下体现业务价值的一个典型场景——
无状态集群是一些什么样的集群?如何把成本做到优化呢?
第一,为用户创建的无状态集群时,所选云服务器的机型可能会不一样 。首先它是一个金字塔结构,在最下面一层,首先保证用户的计算资源 。
第二,尽量满足用户的计算特性 。比如 word count 或者 CPU 密集型的计算用不了多少内存,我们会尽量帮用户节约内存的资源,选择 CPU 和内存比例比较接近的机型 。
第三,帮用户做成本优化 。两种计价模型,一种是按需、一种是竞价 。原则上来讲,竞价比按需便宜,且因为无状态集群时间短,我们会尽量地给用户选便宜机型 。比如说用户倾向的一个机型无库存了,怎么办?我们尽量在价格以及配置上面选择跟用户定义类似的机型,以保证用户的计算任务是能够执行的 。
文章插图
最后,做一个简单的总结,Stateless 都有什么好处?
首先,其实就是很简单的按量付费 。按需创建,自动销毁,用户无需关心集群的状态,因为它随着任务总会有的 。其次,它永远处于一个迭代的状态,大家可以永远地去享受开源社区版本迭代带来的一个红利,因为我们是永远拥抱开源的,这也是我们火山引擎 EMR 不会放弃的一个初心 。
然后就是存算分离和弹性扩展,弹性扩展具有一定先进性,可以在集群的力度上完成 。日志是幂等的且上云的,随时都能看到,用户不用对日志有过多的运维 。
最后,谈到运维,Stateless把有状态的服务抽取出来,用户无需再去关心跟集群服务相关的内容,只用关心运行计算、计算debug和计算诊断这些方面就足够了 。
推荐阅读
- 愿意的反义词是什么标准答案?愿意隆重忘记的反义词?
- kp是什么意思 网上kp是什么意思
- 无论什么品牌白酒,只要瓶身写有“这串代码”,都是酒精酒
- 考科目一的技巧是什么?
- 为什么你的妆总是看起来脏脏的?这些化妆小细节你有没有忽略掉!
- 为什么你买的钻石就不保值呢?
- 去有风的地方|《去有风的地方》播出过半,刘亦菲的旅游爱情剧,是成了还是扑了
- 东海|传奇世界:这几把武器,外形是战士的,属性法师的,当年值几万块
- 罗汉松是什么?罗汉松怎么养护?
- 盐竟有那么多妙用!