Spark修炼之道(高级篇)——Spark源码阅读:第二节 SparkContext的创建

  • 时间:
  • 浏览:1
  • 来源:uu快3下载网址_uu快3IOS下载_电脑版

博文推荐:http://blog.csdn.net/anzhsoft/article/details/39268963,由大神张安站写的Spark架构原理,使用Spark版本为1.2,本文以Spark 1.5.0为蓝本,介绍Spark应用多多程序运行 的执行流程。

本文及底下的源码分析都以下列代码为样板

任务调度器,TaskScheduler类及其子数如下图:

资源调度SchedulerBackend类及相关子类如下图

跳到createTaskScheduler措施 ,都不需要 看多如下源码:

Spark目前支持的集群管理器包括:

在后续章节中,朋友 将对具体的内容进行进一步的分析

Standalone

Apache Mesos

Hadoop YARN

在提交Spark应用多多程序运行 时,Spark支持下列几种Master URL

官网对图下面几点说明:

(1)不同的Spark应用多多程序运行 对应该不同的Executor,哪些Executor在整个应用多多程序运行 执行期间都占据 一点 Executor中都不需要 采用多多程序运行 的措施 执行Task。原先做的好处是,各个Spark应用多多程序运行 的执行是相互隔离的。除Spark应用多多程序运行 向内外部存储系统写数据进行数据交互并不是措施 外,各Spark应用多多程序运行 间无法进行数据共享。

(2)Spark对于其使用的集群资源管理器这麼感知能力,如果我它能对Executor进行申请并通信即可。这由于不管使用哪种资源管理器,其执行流程都不 不变的。原先Spark都不需要 不同的资源管理器进行交互。

(3)Spark应用多多程序运行 在整个执行过程中要与Executors进行来回通信。

(4)Driver端负责Spark应用多多程序运行 任务的调度,一点 最好Driver应该靠近Worker节点。

代码中的SparkContext在Spark应用多多程序运行 的执行过程中起着主导作用,它负责与多多程序运行 个Spark集群进行交互,包括申请集群资源、创建RDD、accumulators 及广播变量等。SparkContext与集群资源管理器、Worker结节点交互图如下图所示。

有了前面的知识铺垫后,现在朋友 来说明一下Spark的创建过程,SparkContext创建帕累托图核心源码如下: