在线客服
扫描二维码
下载博学谷APP扫描二维码
关注博学谷微信公众号
Spark应用程序以进程集合为单位在分布式集群上运行,通过driver程序的main方法创建的SparkContext对象与集群交互。本文主要内容有Spark运行架构的流程讲解和Spark运行架构的特点分析,感兴趣的小伙伴就赶紧看下去吧!
1、Spark 运行基本流程:
(1)构建 Spark Application 的运行环境(启动 SparkContext),SparkContext 向资源管理器(可以是 Standalone、Mesos 或 YARN)注册并申请运行 Executor 资源。
(2)资源管理器分配 Executor 资源并启动 Executor,Executor 运行情况将随着心跳发送到资源管理器上。
(3)SparkContext 构建成 DAG 图,将 DAG 图分解成 Stage,并把 Taskset发送给 Task Scheduler。Executor 向 SparkContext 申请 Task,Task Scheduler 将Task 发放给 Executor 运行同时 SparkContext 将应用程序代码发放给 Executor。
(4)Task 在 Executor 上运行,运行完毕释放所有资源。
2、Spark 运行架构的特点:
(1)每个 Application 获取专属的 executor 进程,该进程在 Application 期间一直驻留,并以多线程方式运行 tasks。
(2)Spark 任务与资源管理器无关,只要能够获取 executor 进程,并能保持相互通信就可以了。
(3)提交 SparkContext 的 Client 应该靠近 Worker 节点(运行 Executor 的节点),最好是在同一个 Rack 里,因为 Spark 程序运行过程中SparkContext 和Executor 之间有大量的信息交换;如果想在远程集群中运行,最好使用 RPC 将SparkContext 提交给集群,不要远离 Worker 运行 SparkContext。
(4)Task 采用了数据本地性和推测执行的优化机制。
以上就是Spark运行架构及其特点的讲解,大家都听明白了吗?
— 申请免费试学名额 —
在职想转行提升,担心学不会?根据个人情况规划学习路线,闯关式自适应学习模式保证学习效果
讲师一对一辅导,在线答疑解惑,指导就业!
相关推荐 更多
大数据开发常用的工具介绍
Java语言和 Linux操作系统,它们是学习大数据的基础。java:只需了解一些基本知识,不需要用很深的 Java技术来做大数据,学习 java SE等于学习大数据基础。与大数据有关的软件都在 Linux上运行,所以 Linux要学扎实一点,学好Linux对你快速掌握与大数据有关的技术,能让你更好地了解 hadoop, hive, hbase, spark等大数据软件的运行环境和网络环境配置。
5229
2020-07-02 13:49:48
学大数据技术与应用的女生多吗?适合吗?
随着人工智能的发展,对于大数据方面的人才需要越来越大,高校里面选择大数据技术的人不在少数,女生适不适合学大数据技术与应用这个问题跟女生适不适合学IT技术一样,没有性别限制,女生更适合数据分析方便的工作。
8935
2020-09-23 10:31:38
什么人适合学习大数据开发?学大数据难吗?
有不少应届大学毕业生和0基础人群选择学大数据,但是要选择零基础的大数据培训班,从Java基础开始学习,由浅入深掌握离线数据分析、实时数据分析和内存数据计算等重要内容。
4517
2020-11-26 15:20:18
狂野大数据课程好学吗?难不难?
这门课程对标企业5年真实⼤数据从业⼈员的技能⽔平,因此学习这门课程需要有一定的基础,假设课程内容100%吸收⾜以对标甚⾄秒杀企业中5年⼤数据经验的开发⼈员。学成后知识储备完全胜任⾼级⼤数据开发职称。
2664
2022-09-29 16:42:05
博学谷狂野大数据学习多长时间?
狂野大数核心课程以全程直播方式授课,共计330小时,如果每天能保证4小时的高效学习效率,需要学习3个月左右,因为每个人的学习情况不一样学习周期会有所差别。
2827
2022-09-16 15:31:26