大数据的处理(云计算)中有哪些棘手的技术问题有待解决谢谢

Hadoop里出现慢机器节点的问题可以通过一种被称作”推测执行“的方案解决的,大致思想就是计算出其它节点计算耗时,如果某结点用时明显比其它多时,可能会多启动一些计算单元对同样的数据同时计算,谁先完成就采用谁的结果。如果Partition不均一般就需要自己想办法将Partition拆分均匀了,或者有时候宁愿去多添加一轮MR也要避免Partition不均。据说还有一些动态Partition方法,不过我没怎么接触过具体的应用,不多做评说。hive的许多优化都是为了解决数据倾斜的,可以参考一下阿里的这篇 数据倾斜总结我是搞流式计算的,接触到的更多是流式计算里的问题,在流式计算里这个问题就更为复杂了,特别是流式计算里的计算单元带状态的时候,计算单元迁移、重启成本较高,而且因为状态也做过partition,就导致更改并发数更为困难,目前我们只有想办法尽可能的让Worker不带状态,或带的状态较小使其迁移成本降低,再或者就是使用全局存储维护一个全局状态。
■网友
现在百度还在使用改装的hadoop么?@张云聪


    推荐阅读