怎样在分布式应用里使用spark
首先说明,当你分布式部署的时候,是一个应用(只不过会跨机器启动多个进程)。
Spark Application是Master-Slave结构的。
【怎样在分布式应用里使用spark】 SparkSession内部包装了SparkContext,创建在Driver端(也就是你的代码入口),应用启动后SparkContext负责和集群管理器(如YARN或者Standalone)通信,启动Executor端进程,Executor端的代码入口并不是你的代码入口,简单来说Executor启动的是一个RPC通信端和Driver进行RPC通信完成协作。
因此SparkSession只会创建在Driver端。
建议了解下:Cluster Mode Overview
■网友
sprark自己已经实现了分布式,只需要一个session即可。光宇教育www.guangyujiaoyu.com
■网友
第一步是创建GlobalDefaultSession,然后用的是GetOrCreate方法,所以除非你用newSession方法新建一个session,还是在调用全局默认的那个session。SparkSQL那边的临时表就是Session级的,然后可以设置成全局级的
我看API的文档后是这么理解的,如果错了不要喷我
然后我很想知道一件事,Session的生命周期是怎样的。
推荐阅读
- 聪明人养花,这3种“花”怎样也要养一盆,每年能省不少医药费
- 互联网怎样解决“家政服务上门速度慢”的问题
- 怎样看待从1月8号起,QQ钱包开始提现收费
- 银行it人怎样转型
- 汽车|冬天怎样让车内温度快速升高?座椅加热的最佳使用方式二,外循环的作用总结
- 怎样进入通信行业
- 怎样评价扶他柠檬茶的小说《云养汉》的结尾
- 怎样成为一名合格的Python程序员?
- 怎样评价华为、诺基亚、中兴中标中国移动高端路由交换设备扩容集采
- 怎样评价类似前橙会、百老汇、南极圈这样类型的离职帮抱团,对企业的积极意义和消极意义
