Apache Spark优化工具包( 二 )


· 使用重新分区或合并来重新平衡不均匀的分区 。
· 仅当数据将被多次重用时才保留数据 。
· 使用ANALYZE TABLE命令可以维护CBO的最新统计信息 。
· 为小表启用广播连接以加快连接速度 。
· 通过使用较少的UDF并避免缓存大对象来优化GC 。
(本文翻译自Xinran Waibel的文章《Apache Spark Optimization Toolkit》,参考:https://towardsdatascience.com/apache-spark-optimization-toolkit-17cf3e491992)




推荐阅读