spark Streaming的saveAsHadoopFiles等方法落地时会不会有小文件问题 1.spark有小

1.spark有小文件问题的，他一个instance就会落一个小文件，解决的办法是coalesce。2.spark streaming我不大清楚，我没有用过，但是试一下就知道了，以我的理解，是如果在一个流里面，就是一个instance的，（或者storm那种一个spout的），就应该对应一个文件。
■网友
使用 Spark Streaming 时，如果实时计算结果要写入到 HDFS，那么不可避免的会遇到一个问题，那就是在默认情况下会产生非常多的小文件，这是由 Spark Streaming 的微批处理模式和 DStream(RDD) 的分布式(partition)特性导致的，Spark Streaming 为每个 Partition 启动一个独立的线程来处理数据，一旦文件输出到 HDFS，那么这个文件流就关闭了，再来一个 batch 的 parttition 任务，就再使用一个新的文件流，那么假设，一个 batch 为10s，每个输出的 DStream 有32个 partition，那么一个小时产生的文件数将会达到(3600/10)*32=11520个之多。众多小文件带来的结果是有大量的文件元信息，比如文件的 location、文件大小、block number 等需要 NameNode 来维护，NameNode 会因此鸭梨山大。不管是什么格式的文件，parquet、text、JSON 或者 Avro，都会遇到这种小文件问题，这里讨论几种处理 Spark Streaming 小文件的典型方法。

1. 增加 batch 大小: 这种方法很容易理解，batch 越大，从外部接收的 event 就越多，内存积累的数据也就越多，那么输出的文件数也就回变少，比如上边的时间从10s增加为100s，那么一个小时的文件数量就会减少到1152个。但别高兴太早，实时业务能等那么久吗，本来人家10s看到结果更新一次，现在要等快两分钟，是人都会骂娘。所以这种方法适用的场景是消息实时到达，但不想挤压在一起处理，因为挤压在一起处理的话，批处理任务在干等，这时就可以采用这种方法。
2. Coalesce大法好: 文章开头讲了，小文件的基数是 batch_number * partition_number，而第一种方法是减少 batch_number，那么这种方法就是减少 partition_number 了，这个 api 不细说，就是减少初始的分区个数。看过 spark 源码的童鞋都知道，对于窄依赖，一个子 RDD 的 partition 规则继承父 RDD，对于宽依赖(就是那些个叉叉叉ByKey操作)，如果没有特殊指定分区个数，也继承自父 rdd。那么初始的 SourceDstream 是几个 partiion，最终的输出就是几个 partition。所以 Coalesce 大法的好处就是，可以在最终要输出的时候，来减少一把 partition 个数。但是这个方法的缺点也很明显，本来是32个线程在写256M数据，现在可能变成了4个线程在写256M数据，而没有写完成这256M数据，这个 batch 是不算做结束的。那么一个 batch 的处理时延必定增长，batch 挤压会逐渐增大。
【spark Streaming的saveAsHadoopFiles等方法落地时会不会有小文件问题】 3. SparkStreaming外部来处理: 我们既然把数据输出到 hdfs，那么说明肯定是要用 Hive 或者 Spark Sql 这样的“sql on hadoop”系统类进一步进行数据分析，而这些表一般都是按照半小时或者一小时、一天，这样来分区的(注意不要和 Spark Streaming 的分区混淆，这里的分区，是用来做分区裁剪优化的)，那么我们可以考虑在 Spark Streaming 外再启动定时的批处理任务来合并 Spark Streaming 产生的小文件。这种方法不是很直接，但是却比较有用，“性价比”较高，唯一要注意的是，批处理的合并任务在时间切割上要把握好，搞不好就可能回去合并一个还在写入的 Spark Streaming 小文件。
4. 自己调用 foreach 去 append: Spark Streaming 提供的 foreach 这个 outout 类 api，可以让我们自定义输出计算结果的方法。那么我们其实也可以利用这个特性，那就是每个 batch 在要写文件时，并不是去生成一个新的文件流，而是把之前的文件打开。考虑这种方法的可行性，首先，HDFS 上的文件不支持修改，但是很多都支持追加，那么每个 batch 的每个 partition 就对应一个输出文件，每次都去追加这个 partition 对应的输出文件，这样也可以实现减少文件数量的目的。这种方法要注意的就是不能无限制的追加，当判断一个文件已经达到某一个阈值时，就要产生一个新的文件进行追加了。

spark Streaming的saveAsHadoopFiles等方法落地时会不会有小文件问题

推荐阅读

越小的卧室，越没必要在床头柜上花钱，只需要一块板就能解决了！

为啥有的学霸学习很轻松

再见游戏：“Loken直接喜极而泣，双眼都哭红了”，JDG战队时隔一年再进决赛

沾了油渍的衣服怎么洗才洗得掉油渍搞到衣服上怎么去掉

战友|战友剥好橘子放在陈祥榕墓碑前向卫国戍边烈士致敬！

悲伤是一种怎么样的体验

陕西麻黄梁黄土地质公园开园具科学、生态价值

教师|上海VS北京应该选择哪个城市？

多肉叶片扦插方法视频多肉叶片扦插方法

侦察|美军机又现身，距中国海岸仅76公里！美军机为何频繁骚扰

超牛逼的个性签名！牛b个性签名

枝条长得|绿萝养护，注意细小节，一盆小苗，一年长爆盆，油绿绿太漂亮

新机发布廉价iPad Air要来了/一加真无线耳机曝光/Apple Pencil变神笔

君武亮剑|现在生活怎么样？悲惨程度出乎意料，当初击毙本拉登的那名美军

面乳怎么用? 面乳涂抹方法

一人穷游中国|小富由勤，写的太在理了，大富由命

ptsd患者该怎样自我调节

每天十点财经资讯|创1955年来最低纪录，跟美国“比惨”？英国二季度GDP暴跌20.4%

对于一个经济条件较差的人，生活可以有多快乐

法拉利|法拉利Portofino M将中国首发！家族最便宜的敞篷跑车！