在线客服
扫描二维码
下载博学谷APP扫描二维码
关注博学谷微信公众号
Spark是一个实现快速通用的集群计算平台,它是基于内存的迭代计算框架,适用于需要多次操作特定数据集的应用场合。在大数据库架构中常常需要使用Spark,Spark的知识点一直也是大数据面试题的重点,本文整理了Spark知识点汇总,现在就和大家一起梳理下吧!
1、Spark的核心是什么?
RDD是Spark的基本抽象,是对分布式内存的抽象使用,实现了以操作本地集合的方式来操作分布式数据集的抽象实现。RDD也是Spark非常核心的东西,它表示已被分区,不可变的并能够被并行操作的数据集合,不同的数据集格式对应不同的RDD实现。
RDD必须是可序列化的。RDD可以cache到内存中,每次对RDD数据集的操作之后的结果,都可以存放到内存中,下一个操作可以直接从内存中输入,省去了MapReduce大量的磁盘IO操作。这对于迭代运算比较常见的机器学习算法, 交互式数据挖掘来说,效率提升比较大。
2、Spark的适用场景有哪些?
由于 RDD的特性,Spark不适用那种异步细粒度更新状态的应用,例如web服务的存储或者是增量的web爬虫和索引。就是对于那种增量修改的应用模型不适合。总的来说Spark的适用面比较广泛且比较通用。
3、Spark支持的编程语言有哪几种?
Spark通过与编程语言集成的方式暴露RDD的操作,类似于DryadLINQ和FlumeJava,每个数据集都表示为RDD对象,对数据集的操作就表示成对RDD对象的操作。
Spark主要支持的编程语言是Scala、java、python。
Scala
Spark使用Scala开发,默认使用Scala作为编程语言。编写Spark程序比编写Hadoop MapReduce程序要简单的多,SparK提供了Spark-Shell,可以在Spark-Shell测试程序。
Java
Spark支持Java编程,但对于使用Java就没有了Spark-Shell这样方便的工具,其它与Scala编程是一样的,因为都是JVM上的语言,Scala与Java可以互操作,Java编程接口其实就是对Scala的封装。
Python
现在 Spark也提供了Python编程接口,Spark使用py4j来实现python与java的互操作,从而实现使用python编写Spark程序。Spark也同样提供了pyspark,一个Spark的python shell,可以以交互式的方式使用Python编写Spark程序。
以上就是小编整理的有关Spark的知识点,全部都是干货呀,还没记住的小伙伴赶紧再复习一遍吧!
— 申请免费试学名额 —
在职想转行提升,担心学不会?根据个人情况规划学习路线,闯关式自适应学习模式保证学习效果
讲师一对一辅导,在线答疑解惑,指导就业!
相关推荐 更多
大数据是什么?有什么巨大价值?
随着市场经济的不断发展以及互联网科技的快速提升,信息流通的价值也越来越大,马云曾指出我们即将进入DT的时代。因此大数据成为炙手可热的关键因素。大数据更像是矿藏,不只是因为他的量大,而更在于这些数据背后所带来的的价值以及利益。那大数据到底是什么?他的背后隐含着什么样的巨大价值呢?
7549
2019-08-09 18:04:03
大数据专业学习难度大吗?需要学习什么技术?
众所周知,大数据专业是目前互联网行业中高薪岗位之一。然而看到高薪的机会,大部分同学立刻行动投入大数据专业的学习中,也有一部分同学发表自己的疑问:大数据专业这样高薪是否学习难度非常大?如果从事大数据专业工作,需要学习什么技术呢?
13187
2019-09-02 19:04:37
哪里有比较好的大数据分析培训?
目前大部分关于大数据方向的培训课程都是关于大数据技术开发,主要培养与大数据挖掘、大数据爬虫、大数据存储以及算法开发工程师,相对来说说岗位偏向于开发技术。对于不想从事技术开发岗位的同学,关注更多的则是大数据分析培训课程。那目前国内哪里有比较好的大数据分析培训呢?
6059
2019-09-03 18:47:35
大数据应用技术的发展方向分析
如今,大数据的应用对企业公司以及个人都产生了深远影响,本文就来预测一下大数据应用技术的发展方向。可以预见的是,数据资产管理、数据资产管理、AI驱动的数据基础设施、面向AI的分布式计算框架和数据安全这些都将成为大数据应用技术的发展方向。对大数据应用技术感兴趣的小伙伴,可以接着往下看小编的的详细分析。
6532
2019-10-29 17:24:18
程序员常用数据库有哪些?
数据库就是数据存储的仓库,任何互联网产品都需要使用数据库保存运营过程中所产生的各种数据。SQL是一种数据库查询语言和程序设计语言,主要就是用于管理数据库中的数据,如存取数据、查询数据、更新数据等。在大数据技术不断提升与应用的市场背景下,数据库技术也得到很大的发展,目前数据库产品非常多,最常用的数据库有:Oracle、DB2、MongoDB、SQLServer、MySQL等。
9620
2019-12-05 18:48:08