spark,rdd中的combineByKey 问题求解

如果这是一个新元素combineByKey会使用一个叫createCombiner的函数来创建那个建对应的累加器初始值。这个过程会在每个分区第一次出现各个键时发生,而不是整个rdd中的第一次 如果这是一个在处理当前分区之前已经遇到的键,会使用mergeValue 将该键的累加器对应的的当前值合并 由于每个分区都是独立处理的,一个键可以有多个累加器。如果有两个或者更多分区都对应同一个键的累加器,就需要使用用户提供的mergeCombiners将各个分区结果合并


    推荐阅读