在线客服
扫描二维码
下载博学谷APP
扫描二维码
关注博学谷微信公众号
意见反馈

原创大数据岗位Spark面试题整理附答案

发布时间：2020-04-01 17:52:24 浏览 8331 来源：博学谷作者：照照

众所周知，Spark作为一个集群计算平台和内存计算系统，它是专门为速度和通用目标设计的。从事大数据岗位的工作者，像是ETL工程师、Spark工程师、Hbase工程师、用户画像系统工程师都需要熟练掌握Spark相关知识点，因此Spark也是常常会出现的必考面试题。下面我整理了一些Spark面试题，并附上了答案，一起来看看做一做吧！

大数据Spark面试题

面试题1：Spark 运行架构的特点是什么？

答案：每个 Application 获取专属的 executor 进程，该进程在 Application 期间一直驻留，并以多线程方式运行 tasks。Spark 任务与资源管理器无关，只要能够获取 executor 进程，并能保持相互通信就可以了。提交 SparkContext 的 Client 应该靠近 Worker 节点（运行 Executor 的节点)，最好是在同一个 Rack 里，因为 Spark 程序运行过程中 SparkContext 和Executor 之间有大量的信息交换；如果想在远程集群中运行，最好使用 RPC 将SparkContext 提交给集群，不要远离 Worker 运行 SparkContext。Task 采用了数据本地性和推测执行的优化机制。

面试题2：描述一下Spark运行的基本流程。

答案：这个是面试大数据岗位的一道基础题。Spark 运行基本流程可以参考下面的示意图：

面试题3：Spark 中的 RDD 是什么？

答案：RDD（Resilient Distributed Dataset）叫做分布式数据集，是 Spark 中最基本的数据抽象，它代表一个不可变、可分区、里面的元素可并行计算的集合。RDD 中的数据可以存储在内存或者是磁盘，而且RDD 中的分区是可以改变的。

面试题4：Spark 中的常用算子有哪些区别？

答案：map ：用于遍历 RDD ，将函数 f 应用于每一个元素，返回新的

RDD(transformation 算子)；foreach：用于遍历 RDD，将函数 f 应用于每一个元素，无返回值(action 算子)；mapPartitions：用于遍历操作 RDD 中的每一个分区，返回生成一个新的RDD（transformation 算子）；foreachPartition：用于遍历操作 RDD 中的每一个分区。无返回值(action 算子)。总结的来说，一般使用 mapPartitions 或者 foreachPartition 算子比 map 和 foreach更加高效，推荐使用。

面试题5：spark 中 cache 和 persist 有什么区别？

答案：cache：缓存数据，默认是缓存在内存中，其本质还是调用 persist；persist：缓存数据，有丰富的数据缓存策略。数据可以保存在内存也可以保存在磁盘中，使用的时候指定对应的缓存级别就可以了。

面试题6：如何解决 spark 中的数据倾斜问题？

答案：这也是在大数据岗位上会常常遇到的问题，当我们发现数据倾斜的时候，不要急于提高 executor 的资源，修改参数或是修改程序，首先要检查数据本身，是否存在异常数据。如果是数据问题造成的数据倾斜，找出异常的 key，如果任务长时间卡在最后最后 1 个(几个)任务，首先要对 key 进行抽样分析，判断是哪些 key 造成的。选取 key，对数据进行抽样，统计出现的次数，根据出现次数大小排序取出前几个。

面试题7：谈谈你对spark中宽窄依赖的认识。

答案：RDD 和它依赖的父 RDD（s）的关系有两种不同的类型，即窄依赖（narrow dependency）和宽依赖（wide dependency）。宽依赖指的是多个子 RDD 的 Partition 会依赖同一个父 RDD 的 Partition窄依赖：指的是每一个父 RDD 的 Partition 最多被子 RDD 的一个 Partition使用。

以上就是大数据岗位中常见的Spark面试题整理，大家可以根据附上的答案对Spark的相关知识点进行查漏补缺。如果想要了解更多的大数据面试题，可以上博学谷官网学习大数据的就业班课程，除了面试题整理，课程还包括了各种就业指导内容，欢迎大家试听体验。

大数据岗位大数据面试

— 申请免费试学名额 —

在职想转行提升，担心学不会？根据个人情况规划学习路线，闯关式自适应学习模式保证学习效果
讲师一对一辅导，在线答疑解惑，指导就业！

上一篇：大数据如何构建用户画像？下一篇： 2020年数据分析发展趋势分析

相关推荐 更多

大数据相关热门岗位有哪些？

目前大数据技术已经在众多领域得到应用，包括政府部门，企事业单位，医疗行业等等，大数据分析成为重要决策和制定计划的重要依据。而对于刚刚入行或者还没有入行的朋友来说，虽然知道大数据相关的岗位包括数据分析和大数据开发，那具体现在市场上大数据相关的热门岗位有哪些呢？博学谷小编就和大家一起了解一下。

8809

2019-06-14 17:21:42

大数据岗位就业方向
大数据Hbase面试宝典（下）

在大数据Hbase的面试中只有做好充足的准备，才能以不变应万变。下面和大家分享小编最后整理的大数据Hbase面试宝典最终章。

7244

2019-07-04 18:28:51

大数据面试
大数据工程师常见面试题编程模型

在大数据工程师的面试过程中，编程模型的相关问题常常是绕不过去的一个考点。同时编程模型也是大数据工程师工作中非常重要的知识技能。下面就来讲讲Spout、Bolt、并行度、消息不丢失这几方面的内容，感兴趣的小伙伴就赶紧接着看下去吧！

5677

2019-10-14 18:46:44

大数据工程师大数据面试
学大数据可以从事什么职业？大数据岗位有哪些？

大数据就业方向可以划分为三个大类：大数据开发、系统研发、大数据分析。基础岗位位：大数据开发工程师、大数据系统研发工程师、大数据分析师。大数据覆盖金融、医疗、电商、农业等各行各业，应用领域广泛。

8954

2020-09-23 10:02:32

大数据岗位就业方向
从后端开发转大数据开发怎么样？

你为什么从后端开发（Java/golang）转到大数据开发（Hadoop/Spark）？转大数据的最初原因很简单，就是好几个同事都转了，他们的收入瞬间提高了好多，于是在同事的内推我也就跟着转了，转完以后发现自己真的转对了。有以下几个理由：

3340

2022-06-30 14:25:06

大数据岗位大数据开发