在线客服
扫描二维码
下载博学谷APP
扫描二维码
关注博学谷微信公众号
意见反馈

原创大数据Hadoop生态体系中常见的子系统有哪些？

发布时间：2021-03-17 13:58:05 浏览 4940 来源：博学谷作者：点点

大数据 Hadoop生态体系中常见的子系统有哪些？Hadoop是一个针对大量数据进行分布式处理的软件框架，是一个开发和运行处理大规模数据的软件平台，是Appach的一个用Java语言实现开源软件框架，实现在大量计算机组成的集群中对海量数据进行分布式计算，具有可靠、高效、可伸缩的特点，很多程序会用到这个框架。

今天就主要介绍下大数据Hadoop生态体系中常见的子系统：

大数据Hadoop生态体系的子系统

1、HDFS分布式文件系统

HDFS是Hadoop分布式文件系统，是Hadoop生态系统中的核心项目之一，是分布式计算中数据存储管理基础。HDFS具有高容错性的数据备份机制，它能检测和应对硬件故障，并在低成本的通用硬件上运行。另外，HDFS具备流式的数据访问特点，提供高吞吐量应用程序数据访问功能，适合带有大型数据集的应用程序。

2、MapReduce分布式计算框架

MapReduce是一种计算模型，用于大规模数据集（大于1TB）的并行运算。“Map”对数据集上的独立元素进行指定的操作，生成键值对形式中间结果；“Reduce”则对中间结果中相同“键”的所有“值”进行规约，以得到最终结果。MapReduce这种“分而治之”的思想，极大地方便了编程人员在不会分布式并行编程的情况下，将自己的程序运行在分布式系统上。

3、Yarn资源管理框架

Yarn是Hadoop2.0中的资源管理器，它可为上，层应用提供统一的资源管理和调度，它的引入为集群在利用率、资源统一管理和数据共享等方面带来了巨大好处。

4、Sqoop数据迁移工具

Sqoop是一款开源的数据导入导出工具，主要用于在Hadoop与传统的数据库间进行数据的转换，它可以将一个关系型数据库中的数据导入到Hadoop的HDFS中，也可以将HDFS的数据导出到关系型数据库中，使数据迁移变得非常方便。

5、Mahout数据挖掘算法库

Mahout是Apache旗下的一个开源项目，它提供了一些可扩展的机器学习领域经典算法的实现，旨在帮助开发人员更加方便快捷地创建智能应用程序。Mahout包含许多实现，包括聚类、分类、推荐过滤、频繁子项挖掘。此外通过使用ApacheHadoop库Mahout可以有效地扩展到云中。

6、Hbase分布式存储系统

HBase是GoogleBigtable克隆版，它是一个针对结构化数据的可伸缩、高可靠、高性能、分布式和面向列的动态模式数据库。和传统关系数据库不同，HBase采用了BigTable的数据模型：增强的稀疏排序映射表（Key/Value），其中，键由行关键字、列关键字和时间戳构成。HBase提供了对大规模数据的随机、实时读写访问，同时，HBase中保存的数据可以使用MapReduce来处理，它将数据存储和并行计算完美地结合在一起。

7、Zookeeper分布式协作服务

Zookeeper是一个分布式的，开放源码的分布式应用程序协调服务，是Google的Chubby一个开源的实现，是Hadoop和HBase的重要组件。它是一个为分布式应用提供一致性服务的软件，提供的功能包括：配置维护、域名服务、分布式同步、组服务等用于构建分布式应用，减少分布式应用程序所承担的协调任务。

8、Hive基于Hadoop的数据仓库

Hive是基于Hadoop的一个分布式数据仓库工具，可以将结构化的数据文件映射为一张数据库表，将SQL语句转换为MapReduce任务进行运行。其优点是操作简单，降低学习成本，可以通过类SQL语句快速实现简单的MapReduce统计，不必开发专门的MapReduce应用，十分适合数据仓库的统计分析。

9、Flume日志收集工具

Flume是Cloudera提供的一个高可用的，高可靠的，分布式的海量日志采集、聚合和传输的系统，Flume支持在日志系统中定制各类数据发送方，用于收集数据；同时，Flume提供对数据进行简单处理，并写到各种数据接受方的能力。

大数据Hadoop生态体系中常见的子系统汇总：HDFS分布式文件系统、MapReduce分布式计算框架、Yarn资源管理框架、Sqoop数据迁移工具、Mahout数据挖掘算法库、Hbase分布式存储系统、Zookeeper分布式协作服务、Hive基于Hadoop的数据仓库、Flume日志收集工具等。

大数据开发软件工具

— 申请免费试学名额 —

在职想转行提升，担心学不会？根据个人情况规划学习路线，闯关式自适应学习模式保证学习效果
讲师一对一辅导，在线答疑解惑，指导就业！

上一篇： Sequence File格式是什么？如何使用？下一篇：女生做大数据有发展前景吗？能学会吗？

相关推荐 更多

大数据是什么？与数据之间有什么区别？

大数据是什么？从字面的理解我可以认为他是大量的数据，而在计算机网络领域则将大数据定义为需要更新处理模式才能具有更强的决策力，洞察发现力和流程优化能力来适应海量，高增长了和多样化的薪资资产。因此大数据不仅仅是在数据量的变化，好包括其增长速度以及多样化的特性。

13603

2019-06-06 15:48:59

大数据开发
大数据思维到底是什么？

大数据并不是简单的描述大量的数据，其中涉及到很多的数据分析以及技术实现的问题。现在很多大数据专家，学者纷纷提出大数据思维的概念以及外延理解，无论是哪个版本，大数据思维主要包含全样思维、容错思维、以及相关思维几个方面。那大数据思维到底是什么呢？接下来为大家详细说明。

16212

2019-06-24 18:22:26

大数据开发
大数据Kafka进阶面试题汇总

Kafka是一个分布式、支持分区的、多副本的，基于zookeeper协调的分布式消息系统，它的最大的特性就是可以实时的处理大量数据以满足各种需求场景。在大数据面试中，Kafka也是一个必考点。因此小编汇总了历年来比较经典常见的大数据Kafka进阶面试题。

5899

2019-08-22 19:26:09

大数据开发云计算
云计算大数据在线培训班靠不靠谱？

如今，云计算和大数据已经成为了未来的发展趋势。在时代潮流的要求下，不少人纷纷想进入云计算大数据行业，然而自学难度大、时间长、效率低，那么到底应该如何进入该行业呢？参加云计算大数据在线培训班可以说是一个有效的方法。然而，也有不少人会担心，云计算大数据在线培训班靠不靠谱？下面小编将从课程内容、师资力量和教学方式，为大家全面分析一下云计算大数据在线培训班。

6513

2019-12-30 21:18:38

大数据开发大数据课程
缓存如何分类？有什么区别？

缓存分类按照系统划分为应用级缓存和系统级别缓存；按照设计分本地缓存、分布式缓存、多级缓存。在技术界“缓存为王”，从浏览器到应用前端、应用后端、数据库，每一层都能通过缓存来提高系统的扩展能力，改善系统的响应能力同时减少系统的负担。

5101

2022-04-07 15:59:17

大数据开发零基础入门