在线客服
扫描二维码
下载博学谷APP
扫描二维码
关注博学谷微信公众号
意见反馈

原创科普Spark，什么是Spark？

发布时间：2019-07-09 12:04:57 浏览 9314 来源：博学谷资讯作者：照照

Spark是UC Berkeley AMP lab所开源的类Hadoop MapReduce的通用的并行计算框架，Spark基于map reduce算法实现的分布式计算，拥有Hadoop MapReduce所具有的优点；但不同于MapReduce的是Job中间输出和结果可以保存在内存中，从而不再需要读写HDFS，因此Spark能更好地适用于数据挖掘与机器学习等需要迭代的map reduce的算法。

科普Spark，什么是Spark？

一、’什么是 Spark

Spark 是基于内存计算大数据分析引擎，提高了在大数据环境下数据处理的实时性。Spark 仅仅只涉及到数据的计算，没有涉及到数据的存储。

二、Spark HA 高可用部署

*Spark HA 解决 Master 单点故障的两种方案：

1.基于文件系统的单点恢复(主要用于开发或测试环境)

2.基于 zookeeper 的 Standby Masters(用于生产模式)

*基于 zookeeper 的 Spark HA 高可用集群部署

(1)im spark-env.sh

注释掉 export SPARK_MASTER_HOST=hdp-node-01

(2)在 spark-env.sh 添加 SPARK_DAEMON_JAVA_OPTS，内容如下：

spark.deploy.recoveryMode：

恢复模式（Master 重新启动的模式）有三种：

(1)ZooKeeper

(2) FileSystem

(3)NONE

spark.deploy.zookeeper.url：ZooKeeper 的 Server 地址

spark.deploy.zookeeper.dir：保存集群元数据信息的文件、目录。包括 Worker，Driver 和 Application。

注意：

在普通模式下启动 spark 集群，只需要在主机上面执行 start-all.sh 就可以了。在高可用模式下启动 spark 集群，先需要在任意一台节点上启动 start-all.sh命令。然后在另外一台节点上单独启动 master。命令 start-master.sh。

三、Spark-Shell

读取本地文件

1.运行 spark-shell --master local[N](N 表线程数)

2.编写 scala 代码

sc.textFile("file：///root///words.txt")

.flatMap(_.split(" ")).map((_，1)).reduceByKey(_+_).collect

读取 HDFS 上数据

1.整合 spark 和 HDFS，修改配置文件 spark-env.sh

export HADOOP_CONF_DIR=/opt/bigdata/hadoop-2.6.4/etc/hadoop

2.启动 hdfs，然后重启 spark 集群

3.向 hdfs 上传个文件

4.在 spark shell 中用 scala 语言编写 spark 程序指定具体的 master 地址

1.执行启动命令：

spark-shell \

--master spark：//hdp-node-01：7077 \

--executor-memory 1g \

--total-executor-cores 2

若没指定 master 地址则默认本地模式

2.编写 scala 代码

以上就是“科普Spark，什么是Spark”的全部内容，大家都了解了吗？

大数据开发

— 申请免费试学名额 —

在职想转行提升，担心学不会？根据个人情况规划学习路线，闯关式自适应学习模式保证学习效果
讲师一对一辅导，在线答疑解惑，指导就业！

上一篇：大数据面试：数据仓库工具hive面试题集锦下一篇：大数据面试题 Hadoop/MapReduce，Spark，Strom，Hive 的特点及适用场景

相关推荐 更多

怎样学习spark

现在一提到云计算大数据，就会想到spark。要怎样学习spark呢？首先我们需要简单了解一下它：Spark 是一种与 Hadoop 相似的开源集群计算环境，甚至在某些工作负载方面表现得更加优越。Spark采用一个统一的技术堆栈解决了云计算大数据的如流处理、图技术、机器学习、NoSQL查询等方面的所有核心问题，具有非常完善的生态系统，这直接奠定了其一统云计算大数据领域的霸主地位；

7571

2019-08-06 10:20:49

大数据开发大数据课程大数据培训机构
大数据分析热门技术解析

哪些大数据技术是目前市场最急需的？未来市场哪些技术有更大的发展空间？由于大数据技术以及人工智能技术的普及以及应用，求学者更加理性的对未来大数据应用技术进行分析。根据弗雷斯特研究公司发布的指数，今天和大家分享一下目前大数据分析领域比较热门的十个技术。

8248

2019-06-10 17:58:09

大数据开发
大数据工程师需要具备哪些能力？

大数据工程师需要具备哪些能力？这是许多想在大数据时代把握住发展机遇的学习者，在学习大数据前共同关心的问题。其实任何一个岗位需要具备的能力无外乎两种，即在专业领域的硬实力和职场发展上的软实力。对于大数据行业来讲，要向具备其相应的专业能力，需要学习的内容有很多。下面我就来为大家一一分析，大数据工程师需要具备的各项能力和掌握的各项知识。

10393

2020-01-16 17:03:43

大数据工程师大数据开发
企业大数据竞争优势有哪些？

企业大数据竞争优势：企业利用大数据可以进行目标客户细分、提高效率降低成本、筛选优秀人才、制定有效策略。在大数据时代，使用数据分析的手段很关键，通过数据分析才能带来价值。

6736

2020-04-28 16:44:45

大数据开发就业前景
大数据开发的前景和就业如何？该如何去学习它？

大数据开发的前景和就业如何？该如何去学习它？从岗位招聘和投递的供求对比来看，互联网核心的技术/测试/运维仍保持着较为密集的人才需求，主要体现在企业对以人工智能、数字孪生为代表的高技术岗位的需求，此类岗位同比保有两位数的高增长，相关从业者仍有较大的择业空间与机会。

5231

2022-07-25 11:32:15

大数据开发大数据课程就业方向