spark Streaming的saveAsHadoopFiles等方法落地时会不会有小文件问题( 二 )



■网友
Streaming新手回答一下Spark Streaming不是典型意义上的流式计算本质上还是批计算所以跟flume肯定是不一样的Spark做法就是将流切成一批一批每批就是一个rdd这样就变成是处理顺序批资料了所以你的saveFile的单位就是一个rddFile大小根据rdd的实际数据量决定也就是根据你streaming窗口(就是某一批)所接受数据的量决定streaming的save和其他模块的没有不一样Streaming有解决小文件问题吗?我看没…如此


推荐阅读