Spark入门指南：从基础概念到实践应用全解析( 二 ) _Spark

接下来，程序创建了一个包含两个字符串的列表，并使用 parallelize 方法将其转换为一个 RDD 。然后，它使用 flatMap 方法将每一行文本拆分成单词，并使用 map 方法将每个单词映射为一个键值对（key-value pair），其中键是单词，值是 1 。
最后，程序使用 reduceByKey 方法将具有相同键的键值对进行合并，并对它们的值进行求和。最终结果是一个包含每个单词及其出现次数的 RDD 。程序使用 collect 方法将结果收集到驱动程序，并使用 foreach 方法打印出来。
二、Spark基本概念Spark的理论较多，为了更有效地学习Spark，首先来理解下其基本概念。
1.ApplicationApplication指的就是用户编写的Spark应用程序。
如下，"Word Count"就是该应用程序的名字。
import org.apache.spark.sql.SparkSessionobject WordCount {def main(args: Array[String]) {// 创建 SparkSession 对象，它是 Spark Application 的入口val spark = SparkSession.builder.appName("Word Count").getOrCreate()// 读取文本文件并创建 Datasetval textFile = spark.read.textFile("hdfs://...")// 使用 flatMap 转换将文本分割为单词，并使用 reduceByKey 转换计算每个单词的数量val counts = textFile.flatMap(line => line.split(" ")).groupByKey(identity).count()// 将结果保存到文本文件中counts.write.text("hdfs://...")// 停止 SparkSessionspark.stop()}}2.DriverDriver 是运行 Spark Application 的进程，它负责创建 SparkSession 和 SparkContext 对象，并将代码转换和操作。
它还负责创建逻辑和物理计划，并与集群管理器协调调度任务。
简而言之， Spark Application 是使用 Spark API 编写的程序，而 Spark Driver 是负责运行该程序并与集群管理器协调的进程。
可以将Driver 理解为运行 Spark Application main 方法的进程。
driver的内存大小可以进行设置，配置如下：
# 设置 driver内存大小driver-memory 1024m3.Master & Worker在Spark中，Master是独立集群的控制者，而Worker是工作者。
一个Spark独立集群需要启动一个Master和多个Worker 。Worker就是物理节点，Worker上面可以启动Executor进程。
4.Executor在每个Worker上为某应用启动的一个进程，该进程负责运行Task，并且负责将数据存在内存或者磁盘上。
每个任务都有各自独立的Executor 。Executor是一个执行Task的容器。实际上它是一组计算资源(cpu核心、memory)的集合。
一个Worker节点可以有多个Executor 。一个Executor可以运行多个Task 。
Executor创建成功后，在日志文件会显示如下信息：
INFO Executor: Starting executor ID [executorId] on host [executorHostname]5.RDDRDD（Resilient Distributed Dataset）叫做弹性分布式数据集，是Spark中最基本的数据抽象，它代表一个不可变、可分区、里面的元素可并行计算的集合。
RDD的 Partition 是指数据集的分区。它是数据集中元素的集合，这些元素被分区到集群的节点上，可以并行操作。对于RDD来说，每个分片都会被一个计算任务处理，并决定并行计算的粒度。用户可以在创建RDD时指定RDD的分片个数，如果没有指定，那么就会采用默认值。默认值就是程序所分配到的CPU Core的数目。
一个函数会被作用在每一个分区。Spark 中 RDD 的计算是以分片为单位的，compute 函数会被作用到每个分区上。
RDD的每次转换都会生成一个新的RDD，所以RDD之间就会形成类似于流水线一样的前后依赖关系。在部分分区数据丢失时，Spark可以通过这个依赖关系重新计算丢失的分区数据，而不是对RDD的所有分区进行重新计算。
6.Job一个Job包含多个RDD及作用于相应RDD上的各种操作，每个Action的触发就会生成一个job 。用户提交的Job会提交给DAG Scheduler，Job会被分解成Stage，Stage会被细化成Task 。
7.Task被发送到Executor上的工作单元。每个Task负责计算一个分区的数据。
8.Stage在 Spark 中，一个作业（Job）会被划分为多个阶段（Stage）。同一个 Stage 可以有多个 Task 并行执行(Task 数=分区数）。
阶段之间的划分是根据数据的依赖关系来确定的。当一个 RDD 的分区依赖于另一个 RDD 的分区时，这两个 RDD 就属于同一个阶段。当一个 RDD 的分区依赖于多个 RDD 的分区时，这些 RDD 就属于不同的阶段。

文章插图
上图中，Stage表示一个可以顺滑完成的阶段。曲线表示 Shuffle 过程。

Spark入门指南：从基础概念到实践应用全解析( 二 )

推荐阅读

杨幂|杨幂，成毅，伦，易梦玲，奚梦瑶

汽车减速只会踩刹车作为合格的车主，这3种减速方式应切换自如

职业教育|为什么在毕业五六年之后，才发现公务员是真的香？现在也不晚！

新的平底锅买回来第一次怎么用

捡到10万元钻戒以为是道具■跑车掉下10万元钻戒，拾到者以为是道具

「娱乐密探」而黑过张馨予的人，远远多过喜爱她的人。，作为明星总有会被黑的时分

「郑智」抬价开始？内马尔转会定价1.64亿，皇马参与追逐战！巴萨这下难了

中国银行保险报|年内第6家汇丰银行（中国）支行关闭

『树诚教育』全世界都一样，学习是辛苦的

声带麻痹会呼吸困难吗

时尚星闻|真的是团队的锅吗？，粉丝越管越宽？一言不合就开骂

猫眼看数码三款适合大学生的5G手机盘点用满四年无压力，价格不超3000元高通骁龙865：红米K30 Pro联发科天玑1000 Plus：iQOO Z1麒麟990 5G：荣耀V30 Pro

扬子晚报|热心群众报警疑似酒驾，司机被查后还坚称自己没开车

罗志祥@罗志祥干妈再发声，对周扬青态度360度大转变

内双眼皮如何画眼妆！内双眼皮化妆技巧

「减肥」减肥怎么吃？这样的健身食谱想不瘦都难！

立案后多久通知被告(民事诉讼立案后多久通知被告人)

8月出生的属于什么星座 8月出生的是什么星座

上大学怀念高中生活?好想念高中的日子

#育妈记#普通人很少用，为什么女明星更容易怀上双胞胎？这两个秘诀