都说spark那么牛，有没有啥坑啊( 二 ) 您好

log4j.logger.org.apache.spark.scheduler=ERROR

4.高并发下的Cleaner的内存泄露
说道这里，Cleaner的设计应该算是spark最糟糕的设计。spark的ContextCleaner是用于回收与清理已经完成了的广播boradcast,shuffle数据的。但是高并发下，我们发现这个地方积累的数据会越来越多，最终导致driver内存跑满而挂掉。
l我们先看下，是如何触发内存回收的

没错，就是通过System.gc() 回收的内存，如果我们在jvm里配置了禁止执行System.gc，这个逻辑就等于废掉（而且有很多jvm的优化参数一般都推荐配置禁止system.gc 参数）
lclean过程
这是一个单线程的逻辑，而且每次清理都要协同很多机器一同清理，清理速度相对来说比较慢，但是SQL并发很大的时候，产生速度超过了清理速度，整个driver就会发生内存泄露。而且brocadcast如果占用内存太多，也会使用非常多的本地磁盘小文件，我们在测试中发现，高持续性并发的情况下本地磁盘用于存储blockmanager的目录占据了我们60%的存储空间。

我们再来分析下 clean里面，那个逻辑最慢

真正的瓶颈在于blockManagerMaster里面的removeBroadcast，因为这部分逻辑是需要跨越多台机器的。
针对这种问题，
l我们在SQL层加了一个SQLWAITING逻辑，判断了堆积长度，如果堆积长度超过了我们的设定值，我们这里将阻塞新的SQL的执行。堆积长度可以通过更改conf目录下的ya100_env_default.sh中的ydb.sql.waiting.queue.size的值来设置。

l建议集群的带宽要大一些，万兆网络肯定会比千兆网络的清理速度快很多。
l给集群休息的机会，不要一直持续性的高并发，让集群有间断的机会。
l增大spark的线程池，可以调节conf下的spark-defaults.conf的如下值来改善。

5.线程池与threadlocal引起的内存泄露
发现spark，Hive，lucene都非常钟爱使用threadlocal来管理临时的session对象，期待SQL执行完毕后这些对象能够自动释放，但是与此同时spark又使用了线程池，线程池里的线程一直不结束，这些资源一直就不释放，时间久了内存就堆积起来了。
针对这个问题，延云修改了spark关键线程池的实现，更改为每1个小时，强制更换线程池为新的线程池，旧的线程数能够自动释放。
6.文件泄露
您会发现，随着请求的session变多，spark会在hdfs和本地磁盘创建海量的磁盘目录，最终会因为本地磁盘与hdfs上的目录过多，而导致文件系统和整个文件系统瘫痪。在YDB里面我们针对这种情况也做了处理。
7.deleteONExit内存泄露

都说spark那么牛，有没有啥坑啊( 二 )

推荐阅读

成都房产|260万起总价入手城南还有戏吗？

[美食]家人最馋此菜，煎一煎，炒一炒，鲜香多汁又下饭，超解馋

银黄颗粒孕妇可以吃吗？

格隆汇APP|格隆汇港股聚焦(10.6)︱绿城中国首九月合同销售额增43%；时代中国控股前九个月销售597亿

杭州交通918|急得一宿未睡...，妈妈看了一眼儿子的身份证尾号

黑龙江省@截至8日24时黑龙江累计境外输入确诊病例127例

「cnBeta」英国企业和政府宣布打造完全覆盖农村的移动网络

财政部：预计59家央企划转国资充实社保约6600亿元

养鸭脚木，给它做这4件事，冬天也能长得枝繁叶茂

水果都是怎么生长的？忍了菠萝，忍了雪莲果，最后一种在种花？

偶像组合|偶像组合销量被质疑，至少六万张专辑去向不明

齐鲁黄河从这里入海|东营北二路沿线及金湖银河片区项目建设快马加鞭，打造宜居生态城市

北京日报客户端|柏林主城区疫情超“警戒线”，德国新冠确诊病例超30万例

每天保持500热量差

不换接口、开放内存超频，11代酷睿平台更厚道了

湖人队|0+0+0！湖人锤爆快船，他却隐身成毒瘤，詹姆斯还要忍他多久？

between 和 among 的用法区别 between的用法

在民企打工，一定要做聪明的老实人

前沿追踪|生死存亡之际华为要靠超越iPhone打翻身仗？库克：这么激进干嘛

谈笑者一鸣|搞笑GIF趣图段子：这妹子估计也是和猴子学过两招的