大数据的处理(云计算)中有哪些棘手的技术问题有待解决谢谢
Hadoop里出现慢机器节点的问题可以通过一种被称作”推测执行“的方案解决的,大致思想就是计算出其它节点计算耗时,如果某结点用时明显比其它多时,可能会多启动一些计算单元对同样的数据同时计算,谁先完成就采用谁的结果。如果Partition不均一般就需要自己想办法将Partition拆分均匀了,或者有时候宁愿去多添加一轮MR也要避免Partition不均。据说还有一些动态Partition方法,不过我没怎么接触过具体的应用,不多做评说。hive的许多优化都是为了解决数据倾斜的,可以参考一下阿里的这篇 数据倾斜总结我是搞流式计算的,接触到的更多是流式计算里的问题,在流式计算里这个问题就更为复杂了,特别是流式计算里的计算单元带状态的时候,计算单元迁移、重启成本较高,而且因为状态也做过partition,就导致更改并发数更为困难,目前我们只有想办法尽可能的让Worker不带状态,或带的状态较小使其迁移成本降低,再或者就是使用全局存储维护一个全局状态。
■网友
现在百度还在使用改装的hadoop么?@张云聪
推荐阅读
- “一部手机读云南”上线力争建成国家方志大数据中心西南中心
- 济南垃圾处理单位“前分后混”将面临最高十万元罚款
- 联合国大数据全球平台中国区域中心在杭州成立
- 银行的数据中心可以跳槽去互联网公司吗
- 汽车知识|捷达库存成灾,特价处理,4S店卖不动,大家都不差钱!
- 想要入门图像处理,应该从哪本书看起
- |大数据赋力 半个多月前拉客的“黑车”精准落网
- 学图像处理有哪些不错的书推荐
- 数据采集终端|
- 关于用phpfsocket 写Post, 模拟http 报文怎样写入要传输的处理数据
