喵感数据 distinct去重原理，是如何实现的，大数据Spark面试最近

最近，有位朋友问我， distinct去重原理是怎么实现的？
“在面试时，面试官问他了解distinct算子吗？”
“了解啊， Spark的rdd ，一种transFormation去重的算子，主要用来去重的” 。
“哟，看来你经常使用distinct算子，对distinct算子很熟悉啊” 。
“好说，好说” 。
“那你能说说distinct是如何实现去重的吗？”
我朋友支支吾吾半天：“就是这样、那样去重的啊” 。
“这样、那样是怎么去重的呢”
“具体有点忘记了(其实是根本就不知道)” 。
那么distinct ，底层到底是如何实现去重功能的呢？这个是面试spark部分时，经常被问到的问题。
先来看一段代码，我们测试一下distinct去重的作用：
importorg.apache.spark.rdd.RDD
importorg.apache.spark.{SparkConf,SparkContext}
objectSparkDistinct{
defmain(args:Array[String]):Unit={
valconf:SparkConf=newSparkConf().setMaster("local[*]").setAppName("SparkDistinct")
valsc:SparkContext=newSparkContext(conf)
//定义一个数组
valarray:Array[Int]=Array(1,1,1,2,2,3,3,4)
//把数组转为RDD算子,后面的数字2代表分区，也可以指定3 ， 4....个分区，也可以不指定。
valline:RDD[Int]=sc.parallelize(array,2)
line.distinct().foreach(x=>println(x))
//输出的结果已经去重：1 ， 2 ， 3 ， 4
}
}
【喵感数据 distinct去重原理，是如何实现的，大数据Spark面试】通过上面的代码可以看出，使用distinct以后，会对重复的元素进行去重。我们来看下源码
/**
*ReturnanewRDDcontainingthedistinctelementsinthisRDD.
*/
defdistinct(numPartitions:Int)(implicitord:Ordering[T]=null):RDD[T]=withScope{
map(x=>(x,null)).reduceByKey((x,y)=>x,numPartitions).map(_._1)
}
/**
*ReturnanewRDDcontainingthedistinctelementsinthisRDD.
*/
defdistinct():RDD[T]=withScope{
distinct(partitions.length)
}
上面是distinct的源码，有带参和无参两种。当我们调用无参的distinct时，底层调用的是如下源码：
defdistinct():RDD[T]=withScope{
distinct(partitions.length)
}
而无参distinct()中又调用了带参数的distinct(partitions.length) 。

文章图片
其中， partitions.length代表是分区数，而这个分区则是我们在使用sc.parallelize(array,2)时指定的2个分区。
带参数的distinct其内部就很容易理解了，这就是一个wordcount统计单词的方法，区别是：后者通过元组获取了第一个单词元素。
map(x=>(x,null)).reduceByKey((x,y)=>x,numPartitions).map(_._1)
其中， numPartitions就是分区数。
我们也可以写成这样：
map(x=>(x,null)).reduceByKey((x,y)=>x).map(_._1)
也可以这样写：
line.map(x=>(x,1)).reduceByKey(_+_).map(_._1)

文章图片
通过上面的流程图很清晰的看出来， distinct的原理流程。
使用map算子把元素转为一个带有null的元组；使用reducebykey对具有相同key的元素进行统计；之后再使用map算子，取得元组中的单词元素，实现去重的效果。

喵感数据 distinct去重原理，是如何实现的，大数据Spark面试

推荐阅读

中药白芷,中药白芷的功效与作用

宝骏|雪佛兰旗舰跑车即将来临！入门502马力，回头率不输法拉利F8

三星@三星2代折叠屏手机：Bloom只是代号，实际名为Galaxy Fold 2

母婴参考别笑！可能还会打嗝吐泡泡，胎宝在妈妈肚子里干啥？除了睡还会闹

特里·莫兰■为找存在感，美记者特里·莫兰抨击中国菜“吃起来很累很无聊”

描写黄鹤楼的诗句最有名的那一句?关于黄鹤楼的诗词名句

丢了西瓜的芝麻|怎么才能装作不经意遇到的呢，搞笑GIF趣图：遇到喜欢的姑娘

塑胶拖鞋变黄怎么清洗塑胶拖鞋变黄怎么清洗干净

那年初夏一出场就拥最强性能？华硕新旗舰疑获「独家芯片」加持！

顺产宝宝缺氧常见吗

免费icon素材图标阿里小图标图片素材

苏州除了观前街还有哪里逛街的苏州类似观前街的地方

消费升级引发“摩托热”：高端车型需求旺盛，“触网”销售成首选

中国新闻网|最新研究：中国陆地生态系统固碳能力被低估吸收人为碳排放约45%

北京商报|四大疑点待解，ST康美易主

「GPU」麒麟820芯片详细参数曝光，GPU升级亮眼，新神U有点难

包包品牌排行榜前十名有哪些？旅行包品牌排行榜前十名？

和田玉怎么看成色了和田玉怎么看成色

蔚来|蔚来中国与六家银行签署战略合作协议，获104亿元综合授信

使用空气炸锅不用锡纸可以吗使用空气炸锅不用锡纸可以吗怎么做