spark千万数据join问题? 这种情况一般

这种情况一般是内存使用超出了最大的内存设置，被yarn给kill了，可以看一下Executor的日志，确认下。异常情况检查：1. join操作需要检查关联条件的列是否有重复数据，大量重复数据会导致数据膨胀，这个没有太好的解法，需要结合业务，尽可能的避免重复数据的出现2. 检查是否有数据倾斜的情况（从SparkApplication的WebUI中分析Task的执行情况），美团有篇文章，专门介绍了这种问题的处理方案：Spark性能优化指南——高级篇正常join，则需要考虑：1. 修改spark.sql.shuffle.partitions提高shuffle阶段的任务并行度，降低单个任务的内存占用2. 增加spark.yarn.executor.memoryOverhead
■网友
我测试过百万数据join亿级数据。你可以从如下几个方面入手：1.减少data shuffle的规模。多map掉无用column再进行reduce like的操作。2.检查数据是否是skewed data。也就是说join出的key value pair大小极度不均。3. Spark参数调优。4.升级集群。至于是否升级，建议采用ganglia监控集群，如果Total used memory的peak接近所有可用memory，那么要么加大spill到disk的量，要么就升级集群内存。
■网友
遇到过类似问题。可以有几个办法，
一个方法是试着用union, groupbykey, mapvalues。似乎会节约一些内存。
方法2 join前，将两个集合拆成几部分，组合起来做join。
方法3，一种简单的办法，遇到这种情形的join用map reduce代替spark，计算完了再转回spark继续就成了。
【spark千万数据join问题?】 方法4，使用spark-submit时，指定内存。另外将每个node中spark配置里的单任务内存优化一下。比如从5GB改成9GB

spark千万数据join问题?

推荐阅读

三连板焦作万方：拟筹划公司变更为一家有控股股东及实际控制人的企业

蜂蜜放多长时间就不能喝了,蜂蜜放多久还能吃吗-

北纬yhz|省钱！省事！有荤有素！比外卖好吃百倍的电饭锅懒人鸡翅焖饭！

「瑜伽的事」1 套修复瑜伽序列，非常适合在家（原来瑜伽还可以懒着练）

『特斯拉汽车』特斯拉又降价！Model 3标准版27.15万你是入手？还是再等等

「」职场不巴结不送礼，做好这3点，同事尊重，领导重用

全名电子竞技|网友：这勾当可还行？，Uzi退役早有预谋？黑眼圈变“肾亏男”

卧室卧室为什么不用绿色

描写月亮皎洁的诗句有哪些?描写皎洁明亮的圆月的诗句

小孩半夜腿疼是怎么回事

便利|一克商评 | 走差异化路线的头戴耳机开辟出新天地，前景如何静待市场考验

特朗普|美国疫情汹涌，特朗普未作任何防护，为何没中招？原来这才是真相

金骏眉有防治心脏病和脑血管疾病的功效与作用

股份|国资加速入主“三驾马车”齐发力奇信股份即将跑出“加速度”

港交所举行猪年开市仪式

24种花草茶,减肥瘦身能力大盘点

黑茶与普洱茶区别,高山与坝系普洱茶滋味区别

集团|“控股不等于控制”，锦江集团的解释能圆华联控无实控人之说吗？

「华为」苹果反击开始，iPhone放出大招，华为小米洗洗睡？

茹茹说娱乐■选择豪门做阔太，被儿子骂猪头，说她只会购物，因还珠而爆红