spark Streaming的saveAsHadoopFiles等方法落地时会不会有小文件问题( 二 )

2020-04-17

■网友
Streaming新手回答一下Spark Streaming不是典型意义上的流式计算本质上还是批计算所以跟flume肯定是不一样的Spark做法就是将流切成一批一批每批就是一个rdd这样就变成是处理顺序批资料了所以你的saveFile的单位就是一个rddFile大小根据rdd的实际数据量决定也就是根据你streaming窗口(就是某一批)所接受数据的量决定streaming的save和其他模块的没有不一样Streaming有解决小文件问题吗？我看没…如此

推荐阅读

上一篇：在现在的经济形势下，借款20%的年化利率高吗

下一篇：窜成@绿萝“黄叶”就要糟？用上2种“大补药”，根枝疯长，窜成小瀑布