CSDN|原来 Kylin 的增量构建,大有学问! | 原力计划( 二 )
- 在进行增量构建时 , 将增量部分的起始时间和结束时间作为增量构建请求的一部分提交给 Kylin 的任务引擎
- 任务引擎会根据起始时间和结束时间从 Hive 中抽取相应时间的数据 , 并对这部分数据做预计算处理
- 将预计算的结果封装成为一个新的 Segment, 并将相应的信息保存到元数据和存储引擎中 。 一般来说 , 增量部分的起始时间等于 Cube 中最后一个 Segment 的结束时间 。
本文插图
2、 设置日期范围创建 Cube 结束后 , 在 build 时设置计算数据的日期 。
本文插图
注意事项注意构建 Cube 时 , 选择的分区时间为 , 起始时间(包含)、结束时间(不保存) , 对应了从 Hive 从获取数据源的条件 。 3、查看Segment第一天同步成功
本文插图
接着我们想再计算下一个日期的数据:
本文插图
第二天同步成功
本文插图
根据层量同步方案 , 得出一个结论:每天生成一个 Segment , 一年就有365个 Segment。 当用户查询时 , 系统不知道数据在哪个 Segment 中 , 所以需要扫描所有的 Segment(扫描356个表) , 扫描多个表/多个 Segment 会降低数据查询效率 。 【增量方案带来的问题】补充:文件越多效率越慢 。
- 【CSDN|原来 Kylin 的增量构建,大有学问! | 原力计划】1个文件10G和10000个文件共10G 读取一个文件更快(寻址开销、频繁发开关闭)
- 一个文件夹内的文件特别多 , 这个文件夹打开的时间就会特别长 。
- 当系统越来越慢 , 越来越慢 , 越来越慢 , 越来越慢,有可能是某一个目录中的数据没有及时的清空或删除 。
推荐阅读
- CSDN|由 Apache 说开,中国开源项目已经走向世界!
- CSDN|软件对于英特尔意味着什么?
- GPD掌机|终于明白PS4不开机的原因了,原来中年人是这样玩游戏的
- CSDN|中国首家苹果零售店重开业,苹果CEO库克发文揭幕;“携号转网”服务用户破千万;GitHub 完成北极源代码存档|极客头条
- 中年|现实生活中的“卡通房子”,原来海绵宝宝的“菠萝屋”,真的存在!
- 智能机器人|快商通智能客服云平台荣获CSDN“AI优秀案例实践奖”
- CSDN|万亿美元软件浪潮来临,开发者是核心!
- 行业互联网|快商通智能客服云平台荣获CSDN“AI优秀案例实践奖”
- CSDN|OpenInfra Days China 2020 官网正式上线,含免费注册通道!
- 中年|吃葡萄干前到底用不用洗?很多人原来都吃错了,来看看专家怎么说