怎样在分布式应用里使用spark

首先说明,当你分布式部署的时候,是一个应用(只不过会跨机器启动多个进程)。
Spark Application是Master-Slave结构的。
【怎样在分布式应用里使用spark】 SparkSession内部包装了SparkContext,创建在Driver端(也就是你的代码入口),应用启动后SparkContext负责和集群管理器(如YARN或者Standalone)通信,启动Executor端进程,Executor端的代码入口并不是你的代码入口,简单来说Executor启动的是一个RPC通信端和Driver进行RPC通信完成协作。
因此SparkSession只会创建在Driver端。
建议了解下:Cluster Mode Overview


■网友
sprark自己已经实现了分布式,只需要一个session即可。光宇教育www.guangyujiaoyu.com

■网友
第一步是创建GlobalDefaultSession,然后用的是GetOrCreate方法,所以除非你用newSession方法新建一个session,还是在调用全局默认的那个session。SparkSQL那边的临时表就是Session级的,然后可以设置成全局级的

我看API的文档后是这么理解的,如果错了不要喷我

然后我很想知道一件事,Session的生命周期是怎样的。


    推荐阅读