· 使用重新分区或合并来重新平衡不均匀的分区 。
· 仅当数据将被多次重用时才保留数据 。
· 使用ANALYZE TABLE命令可以维护CBO的最新统计信息 。
· 为小表启用广播连接以加快连接速度 。
· 通过使用较少的UDF并避免缓存大对象来优化GC 。
(本文翻译自Xinran Waibel的文章《Apache Spark Optimization Toolkit》,参考:https://towardsdatascience.com/apache-spark-optimization-toolkit-17cf3e491992)
推荐阅读
- 14个 JavaScript 代码优化技巧
- 求N以内所有质数的算法及优化
- MySQL- 5.7数据库sys schema总结--性能优化必备
- CCleaner免费清理优化工具
- 如何优化推广网站 淘宝推广的广告怎么做
- Nginx高性能优化配置实战总结
- MySQL 数据库性能优化,看这篇就够了
- 淘宝长尾词是什么 淘宝关键词多久优化一次
- 实例详解,百度搜索oCPC优化技巧
- 淘宝seo的三大相关包括 淘宝seo是什么意思,怎么优化