在线客服
扫描二维码
下载博学谷APP扫描二维码
关注博学谷微信公众号
随着移动互联网的发展,云计算大数据开发求职者越来越多。今天小编为大家整理了关于spark的经典面试题:spark中的RDD是什么?RDD有哪些特性?并且编写了较为详细的答案说明,希望能帮助大家解答这方面的疑惑。
RDD是什么
Spark是围绕弹性分布式数据集(RDD)的概念展开的,RDD是一种容错的可分布式操作的数据集合。有两中方式可以创建RDD:一种是将驱动程序中的已有集合平行化;另外一种是引用外部存储系统的数据集,例如共享文件系统,HDFS, HBase, 或者其他类似Hadoop的数据源。
RDD的特点之一是分布式存储,它的好处就是数据存储在不同的节点上,当需要数据进行计算的时候可以在这些节点上并行操作。弹性表现在节点在存储RDD数据的时候,既可以存储在内存中,也可以存储在磁盘上,也可以两者结合使用。RDD还有个特点就是延迟计算,当是transformation算子的时候,并不执行操作,直到遇到action算子的时候才开始执行计算。
RDD有哪些特性
1 、A list of partitions
——RDD是由多个partition构成的。
2、A function for computing each split
——RDD的每个分区上都有一个函数去作用
3、 A list of dependencies on other RDDs
——RDD有依赖性,通常情况下一个RDD是来源于另一个RDD,这个叫做lineage。RDD会记录下这些依赖,方便容错。
4、Optionally, a Partitioner for key-value RDDs (e.g. to say that the RDD is hash-partitioned)
——可选项,如果RDD里面存的数据是key-value形式,则可以传递一个自定义的Partitioner进行重新分区,例如这里自定义的Partitioner是基于key进行分区,那则会将不同RDD里面的相同key的数据放到同一个partition里面。
5、Optionally, a list of preferred locations to compute each split on (e.g. block locations for an HDFS file)
——最优的位置去计算,也就是数据的本地性。
— 申请免费试学名额 —
在职想转行提升,担心学不会?根据个人情况规划学习路线,闯关式自适应学习模式保证学习效果
讲师一对一辅导,在线答疑解惑,指导就业!
相关推荐 更多
大数据优化在SEO公司中的应用
大数据优化在SEO公司中的应用,搜索引擎优化可以通过浏览企业网站了解搜索引擎优化以及其业务需求。搜索引擎优化公司可能会更好地了解市场,并了解需要采取哪些措施以获得曝光率。企业可以保持领先于竞争对手的唯一方法是了解其目标市场以及他们的沟通方式。
7140
2019-05-13 12:06:20
5分钟掌握Hadoop环境搭建流程
Hadoop是大数据技术的基础,它在大数据技术体系中的地位是非常重要的。目前Hadoop是主流的分布式系统基础架构之一,用户可以在不了解分布式底层细节的情况下,开发分布式程序,充分利用集群的威力进行高速运算和存储。所以对于Hadoop基础知识的掌握的扎实程度,会决定你在大数据技术道路上走多远。首先我们来学习一下Hadoop环境搭建流程吧。
7173
2019-08-14 10:19:35
如何激活conda环境?conda创建新环境步骤教程
如何激活conda环境?针对这个问题,本教程将手把手按照创建、激活、查看活跃的环境三个步骤教大家conda创建新环境。
27726
2019-08-07 15:38:03
大数据应用的重要性体现在方方面面
自全国提出“数据中国”的概念以来,我们周围默默地在发挥作用的大数据逐渐深入人们的心中,大数据的应用也越来越广泛,具体到金融、汽车、餐饮、电信、能源、体育和娱乐等领域,下面就通过本文,让我们看看这些正在发生在我们身边的大数据应用案例。
6656
2020-07-06 14:59:59
女生做大数据有发展前景吗?能学会吗?
当前大数据发展前景非常不错,且大数据领域对于人才类型的需求比较多元化,女生学习大数据也会有比较多的工作机会。大数据是一个交叉学科涉及到的知识量比较大学习有一定的难度,女生比较适合大数据采集和大数据分析方向的工作岗位。
3765
2021-03-18 16:38:32