原创 Hadoop的联邦机制大数据学习总结

发布时间：2019-08-27 20:31:19 浏览 6639 来源：博学谷资讯作者：照照

Hadoop的NN所使用的资源受所在服务的物理限制，不能满足实际生产需求。本文来谈谈大数据学习之Hadoop的联邦机制，主要内容包括：Hadoop的局限与不足、联邦的实现、主要优点、配置和操作。

Hadoop的联邦机制

一、Hadoop的局限与不足

Hadoop1.0的核心组件MR和HDFS主要有几个不足：

1、抽象层次低。对于简单的功能，编写大量的代码。

2、表达能力有限。MR把复杂分布式编程工作高度抽象到两个函数上，即Map和Reduce上，实际生产环境中有些不能只用简单的两个函数完成。

3、要管理作业间复杂的依赖关系。实际应用通常需要大量的job协作完成，job之间往往存在复杂的依赖关系。

4、迭代效率低。对于需要迭代的任务，需要反复读写HDFS文件中的数据，大大降低了迭代效率。

5、资源浪费。Reduce任务需要等待所有Map任务完成后才开始。

6、实时性差。适用于离线批处理。

二、联邦的实现

采用多台 NN 组成联邦。NN 是独立的，NN 之间不需要相互调用。NN 是联合的，同属于一个联邦，所管理的 DN 作为 block 的公共存储。block pool 的概念，每一个 namespace 都有一个 pool，datanodes 会存储集群中所有的 pool，block pool 之间的管理是独立的，一个 namespace 生成一个 blockid 时不需要跟其它 namespace 协调，一个 namenode 的失败也不会影响到 datanode对其它 namenodes 的服务。一个 namespace 和它的 block pool 作为一个管理单元，删除后，对应于datanodes 中的 pool 也会被删除。集群升级时，这个管理单元也独立升级。这里引入 clusterID 来标示集群所有节点。当一个 namenode format 之后，这个 id 生成，集群中其它 namenode 的 format 也用这个 id。

三、主要优点：

命名空间可伸缩性——联合添加命名空间水平扩展。DN 也随着 NN 的加入而得到拓展。

性能——文件系统吞吐量不是受单个Namenode 限制。添加更多的Namenode集群扩展文件系统读/写吞吐量。

隔离——隔离不同类型的程序，一定程度上控制资源的分配

四、配置：

联邦的配置是向后兼容的，允许在不改变任何配置的情况下让当前运行的单节点环境转换成联邦环境。新的配置方案确保了在集群环境中的所有节点的配置文件都是相同的。这里引入了 NameServiceID 概念，作为 namenodes 们的后缀。第一步：配置属性 dfs.nameservices，用于 datanodes 们识别 namenodes。第二步：为每个 namenode 加入这个后缀。

五、操作:

# 创建联邦，不指定 ID 会自动生成

$HADOOP_HOME/bin/hdfs namenode -format [-clusterId <cluster_id>]

# 升级 Hadoop 为集群

$HADOOP_HOME/bin/hdfs start namenode --config $HADOOP_CONF_DIR

-upgrade -clusterId <cluster_ID>

# 扩展已有联邦

$HADOOP_HOME/bin/hdfs dfsadmin -refreshNamenodes

<datanode_host_name>：<datanode_rpc_port>

# 退出联邦

$HADOOP_HOME/sbin/distribute-exclude.sh <exclude_file>

$HADOOP_HOME/sbin/refresh-namenodes.sh

什么是 CDH？

它是 Hadoop众多分支中的一种，由 Cloudera 维护，基于稳定版本的 Apache Hadoop 构建，并集成了很多补丁，可直接用于生产环境。

CDH 的优点：版本划分清晰

版本更新速度快

支持 Kerberos 安全认证文档清晰

支持多种安装方式（Cloudera Manager、YUM、RPM、Tarball）什么是 CM Cloudera Manager? 是为了便于在集群中进行 Hadoop

等大数据处理相关的服务安装和监控管理的组件，对集群中主机、Hadoop、Hive、Spark等服务的安装配置管理做了极大简化。
Cloudera Manager 有四大功能：

（1）管理：对集群进行管理，如添加、删除节点等操作。

（2）监控：监控集群的健康情况，对设置的各种指标和系统运行情况进行全面监控。

（3）诊断：对集群出现的问题进行诊断，对出现的问题给出建议解决方案。

（4）集成：对 hadoop 的多组件进行整合。

以上就是Hadoop的联邦机制的全部知识点总结。大家对大数据学习如果还有更多的兴趣，可以报博学谷的在线大数据课程。

大数据开发大数据入门

— 申请免费试学名额 —

在职想转行提升，担心学不会？根据个人情况规划学习路线，闯关式自适应学习模式保证学习效果
讲师一对一辅导，在线答疑解惑，指导就业！

上一篇：重庆大数据培训机构靠谱吗？培训机构哪家好？下一篇：数据科学家人才需求缺口大的原因

相关推荐 更多

大数据是什么？有什么巨大价值？

随着市场经济的不断发展以及互联网科技的快速提升，信息流通的价值也越来越大，马云曾指出我们即将进入DT的时代。因此大数据成为炙手可热的关键因素。大数据更像是矿藏，不只是因为他的量大，而更在于这些数据背后所带来的的价值以及利益。那大数据到底是什么？他的背后隐含着什么样的巨大价值呢？

7616

2019-08-09 18:04:03

大数据开发大数据技术大数据入门
大数据核心技术：spark学习总结

想要学习大数据，一定要充分掌握大数据的核心技术：Hadoop、Strom、spark等等。Spark是一种与Hadoop像是的开源集群计算环境。它启用了内存分布数据集，除了能够提供交互式查询外，它还可以优化迭代工作负载。

9933

2019-06-19 17:37:43

大数据开发
Kylin开发教程从原理讲解到实践演练

众所周知，Kylin是一个可扩展的超快OLAP引擎，它能够提供Hadoop ANSI SQL借口和交互式查询，还可以和BI工具无缝整合，为百亿用户构建立方体。既然学习Kylin这么有必要，那么我们该如何学习它呢？这里为大家介绍博学谷的Kylin开发教程，本教程将会对Kylin进行系统化梳理，包括了Kylin的技术架构、运维不熟、增量构建、实时构建、性能优化等内容，带领大家从原理讲解到实战演练。

5155

2019-11-25 12:22:09

大数据技术大数据开发
云计算大数据在线培训班靠不靠谱？

如今，云计算和大数据已经成为了未来的发展趋势。在时代潮流的要求下，不少人纷纷想进入云计算大数据行业，然而自学难度大、时间长、效率低，那么到底应该如何进入该行业呢？参加云计算大数据在线培训班可以说是一个有效的方法。然而，也有不少人会担心，云计算大数据在线培训班靠不靠谱？下面小编将从课程内容、师资力量和教学方式，为大家全面分析一下云计算大数据在线培训班。

6513

2019-12-30 21:18:38

大数据开发大数据课程
HDFS入门基础学习总结

HDFS全称就是Hadoop分布式文件系统，作为Hadoop的核心组件，它提供了最底层的分布式存储服务。本文整理了HDFS设计目标和HDFS的重要特性等等内容，下面一起来看HDFS入门基础学习总结吧~

4872

2020-06-09 16:19:01

大数据技术大数据入门