在线客服
扫描二维码
下载博学谷APP扫描二维码
关注博学谷微信公众号
大数据时代的浪潮袭来,Hadoop作为一种用来处理海量数据分析的工具,是每一个大数据开发者必须要学习和掌握的利器。本文总结了Hadoop入门基础知识,主要包括了Hadoop概述、Hadoop的发展历程和Hadoop的特性。下面一起来看看吧!
1、Hadoop概述
Hadoop 是 Apache 旗下的一个用 Java 语言实现开源软件框架,它还是一个开发和运行处理大规模数据的软件平台。Hadoop允许使用简单的编程模型,在大量计算机集群上,对大型数据集进行分布式处理。
狭义上说,Hadoop 指 Apache 这款开源框架,它的核心组件有:HDFS(分布式文件系统):解决海量数据存储 ;YARN(作业调度和集群资源管理的框架):解决资源任务调度;MAPREDUCE(分布式运算编程框架):解决海量数据计算。
广义上来说,Hadoop 通常是指一个更广泛的概念——Hadoop 生态圈。当下的 Hadoop 已经成长为一个庞大的体系,随着生态系统的成长,新出现的项目越来越多,其中不乏一些非 Apache 主管的项目,这些项目对 HADOOP 是很好的补充或者更高层的抽象。比如,HDFS: 分 布 式 文 件 系 统;MAPREDUCE:分布式运算程序开发框架;HIVE:基于 HADOOP 的分布式数据仓库,提供基于 SQL 的查询数据操作;HBASE:基于Hadoop的分布式海量数据库;ZOOKEEPER:分布式协调服务基础组件;Mahout:基于 mapreduce/spark/flink 等分布式运算框架的机器学习算法库;OOZIE:工作流调度框架;Sqoop:数据导入导出工具;FLUME:日志数据采集框架;IMPALA:基于 hive 的实时 sql 查询分析。
2、Hadoop的发展历程
Hadoop 是 Apache Lucene 创始人 Doug Cutting 创建的。最早起源于 Nutch, 它是 Lucene 的子项目。Nutch 的设计目标是构建一个大型的全网搜索引擎,包括网页抓取、索引、查询等功能,但随着抓取网页数量的增加,遇到了严重的可扩展性问题:如何解决数十亿网页的存储和索引问题。
2003 年 Google 发表了一篇论文为该问题提供了可行的解决方案。论文中描述的是谷歌的产品架构,该架构称为:谷歌分布式文件系统(GFS),可以解决他们在网页爬取和索引过程中产生的超大文件的存储需求。
2004 年 Google 发表论文向全世界介绍了谷歌版的MapReduce 系统。 同时期,Nutch 的开发人员完成了相应的开源实现 HDFS 和 MAPREDUCE,并从Nutch 中剥离成为独立项目 HADOOP,到 2008 年 1 月,HADOOP 成为 Apache 顶级项目,迎来了它的快速发展期。
2006 年 Google 发表了论文是关于 BigTable 的,这促使了后来的 Hbase的发展。 因此,Hadoop 及其生态圈的发展离不开 Google 的贡献。
3、Hadoop的特性
(1)扩容能力:Hadoop 是在可用的计算机集群间分配数据并完成计算任务的,这些集群可用方便的扩展到数以千计的节点中。
(2)成本低:Hadoop 通过普通廉价的机器组成服务器集群来分发以及处理数据,以至于成本很低。
(3)高效率:通过并发数据,Hadoop 可以在节点之间动态并行的移动数据,使得速度非常快。
(4)可靠性:能自动维护数据的多份复制,并且在任务失败后能自动地重新部署计算任务。所以 Hadoop 的按位存储和处理数据的能力值得人们信赖。
4、Hadoop的应用
Hadoop 最受青睐的行业是互联网领域,可以说互联网公司是 hadoop 的主要使用力量。国外来说,Yahoo、Facebook、IBM 等公司都大量使用 hadoop 集群来支撑业务。比如:Yahoo 的 Hadoop 应用在支持广告系统、用户行为分析、支持 Web 搜索等。 Facebook 主要使用 Hadoop 存储内部日志与多维数据,并以此作为报告、分析和机器学习的数据源。
国内来说,BAT 领头的互联网公司是当仁不让的 Hadoop 使用者、维护者。比如 Ali 云梯(14 年国内最大 Hadoop 集群)、百度的日志分析平台、推荐引擎系统等。国内其他非互联网领域也有不少 hadoop 的应用,比如:金融行业的个人征信分析,证券行业的投资模型分析,还有交通行业的车辆、路况监控分析和电信行业的用户上网行为分析 。
Hadoop入门基础知识就分享到这里了,博学谷平台上除了关于大数据的学习干货之外,还有更专业的学习视频资源,大家如果对于学习大数据感兴趣,不妨现在就开始在线学习吧~
— 申请免费试学名额 —
在职想转行提升,担心学不会?根据个人情况规划学习路线,闯关式自适应学习模式保证学习效果
讲师一对一辅导,在线答疑解惑,指导就业!
相关推荐 更多
Spark运行架构及其特点讲解
Spark应用程序以进程集合为单位在分布式集群上运行,通过driver程序的main方法创建的SparkContext对象与集群交互。本文主要内容有Spark运行架构的流程讲解和Spark运行架构的特点分析,感兴趣的小伙伴就赶紧看下去吧!
6847
2019-08-20 19:22:54
学大数据技术必须了解的大数据经典应用案例
我们已经进入了数据化的时代,大数据开发技术、数据分析已经成为目前企业最核心的关注点。数据为企业提供了更加可靠的支撑,对于优化产业结构、提升生产效率有非常明显的作用。在企业纷纷布局大数据业务的同时,大数据相关人才缺口逐渐扩大。目前国内大数据相关从业人员已经超过20万,作为大数据从业人员,必须了解一些大数据相关的经典应用案例。
6071
2019-08-22 18:03:14
数据分析课程大纲是什么?
马云说我们已经进入数据时代。大量的数据为我们提供更多客观的、有效的决策支撑。同时伴随着大数据的发展,衍生出大量的鱼数据相关的技术岗位:大数据开发工程师、数据挖掘工程师、数据分析等等。相对于相关工程师而言,数据分析对于从业者要求较低,因此大量的求学者进入数据分析的课程学习中。那数据分析都需要学习哪些知识点呢?我们就博学谷数据分析课程大纲为大家说明。
9207
2019-08-23 18:40:33
Redis是什么?Redis有哪些数据类型?
Redis是什么?Redis是一个高性能且免费的key-value数据库,它可以解决高并发、高扩展和大数据存储等等问题,因此Redis对大数据的作用至关重要。那么Redis有哪些数据类型呢?简单来说有string、hash、list、set、zset五种,下面小编将来详细分析一下这五种数据类型。
6522
2019-11-11 17:51:24
2021年大数据行业发展前景及岗位方向如何?
中国大数据行业的发展依然呈稳步上升趋势,大数据总体发展水平较好在各行业都有应用,其中金融大数据、政务大数据的应用水平高,同时交通、电信、商贸、医疗、教育、旅游等行业大数据的发展水平也有显着提升。
4881
2021-03-04 16:37:45