spark，rdd中的combineByKey 问题求解

2020-07-30

如果这是一个新元素combineByKey会使用一个叫createCombiner的函数来创建那个建对应的累加器初始值。这个过程会在每个分区第一次出现各个键时发生，而不是整个rdd中的第一次如果这是一个在处理当前分区之前已经遇到的键，会使用mergeValue 将该键的累加器对应的的当前值合并由于每个分区都是独立处理的，一个键可以有多个累加器。如果有两个或者更多分区都对应同一个键的累加器，就需要使用用户提供的mergeCombiners将各个分区结果合并

推荐阅读

上一篇：C++中destroy和deallocate的区别

下一篇：一道算法题Leetcode的combinationSum2变种