spark Streaming的saveAsHadoopFiles等方法落地时会不会有小文件问题( 二 )
■网友
Streaming新手回答一下Spark Streaming不是典型意义上的流式计算本质上还是批计算所以跟flume肯定是不一样的Spark做法就是将流切成一批一批每批就是一个rdd这样就变成是处理顺序批资料了所以你的saveFile的单位就是一个rddFile大小根据rdd的实际数据量决定也就是根据你streaming窗口(就是某一批)所接受数据的量决定streaming的save和其他模块的没有不一样Streaming有解决小文件问题吗?我看没…如此
推荐阅读
- 都说spark那么牛,有没有啥坑啊
- spark on hive 优化?
- Structured Streaming 和 Flink 对比有啥优劣势呢
- 我对于spark并行处理的理解正确吗
- 在spark中怎样让一段代码只在一个task内执行
- 用Python(过spark)处理数据
- 用Amazon EC2建立Spark集群后运行出现问题,总是Lost Executor?
- 怎样并行计算 pageRank
- 想用spark处理一个问题
- spark执行速度非常慢,数据量不大,请教高手是不是代码问题
