在线客服
扫描二维码
下载博学谷APP扫描二维码
关注博学谷微信公众号
Hive是建立在Hadoop上的数据仓库基础构架。对于有一定基础的大数据学习者来讲,Hive是必须掌握的核心技术。本文主要带大家来认识一下Hive,了解什么是Hive?为什么要用Hive?如果大家对这些问题好奇,就一起看看接下来的内容吧~
1、什么是Hive?
(1)Hive的定义
Hive一个可以将结构化的数据文件映射为一张数据库表并提供类SQL查询功能的数据仓库工具,而且它是基于Hadoop的。因此,从本质上来看,Hive是将SQL转换为MapReduce程序的工具。因为,比直接用MapReduce开发效率更高,Hive的主要作用就是用来做离线数据分析。
(2)Hive架构
用户接口:包括 CLI 、JDBC/ODBC 、WebGUI 。其中, CLI(command line interface)为 shell 命令行;JDBC/ODBC 是 Hive 的 JAVA 实现,与传统数据库JDBC 类似;WebGUI 是通过浏览器访问 Hive。
元数据存储:通常是存储在关系数据库如 mysql/derby 中。Hive 将元数据存储在数据库中。Hive 中的元数据包括表的名字,表的列和分区及其属性,表的属性(是否为外部表等),表的数据所在目录等。
解释器、编译器、优化器、执行器:完成 HQL 查询语句从词法分析、语法分析、编译、优化以及查询计划的生成。生成的查询计划存储在 HDFS中,并在随后有 MapReduce 调用执行。
(3)Hive数据模型
Hive中所有的数据都存储在HDFS中,没有专门的数据存储格式。在创建表时指定数据中的分隔符,Hive就可以映射成功,解析数据。Hive中包含以下数据模型:
db:在hdfs中表现为hive.metastore.warehouse.dir目录下一个文件夹;
table:在hdfs中表现所属db目录下一个文件夹;
external table:数据存放位置可以在 HDFS 任意指定路径;
partition:在hdfs中表现为table目录下的子目录;
bucket:在hdfs中表现为同一个表目录下根据hash散列之后的多个文件。
2、为什么要用Hive?
(1)Hive与传统数据库对比
Hive用于海量数据的离线数据分析。Hive具有sql数据库的外表,但应用场景完全不同,Hive只适合用来做批量数据统计分析。
(2)Hive的优势
Hive利用HDFS存储数据,利用MapReduce查询分析数据。因为直接使用Hadoop MapReduce处理数据,会面临人员学习成本太高的问题,而且MapReduce实现复杂查询逻辑开发难度太大。而使用Hive,操作接口采用类SQL语法,提供快速开发的能力的同时还避免了去写MapReduce,从而减少开发人员的学习成本,功能扩展更加方便。
看到这里,想必大家对于“什么是Hive?为什么要用Hive?”,已经有了一定的了解。如果大家想要更加深入的学习大数据中的核心技术Hive,可以在下方申请免费试学名额,获取免费的大数据在线学习机会~
— 申请免费试学名额 —
在职想转行提升,担心学不会?根据个人情况规划学习路线,闯关式自适应学习模式保证学习效果
讲师一对一辅导,在线答疑解惑,指导就业!
相关推荐 更多
大数据Hbase面试题汇总
在大数据中,我们总会碰到Hbase数据库。尤其对于即将要面试大数据的小伙伴来说,Hbase数据库更是绕不过去的一个重要考点,因此小编汇总了近些年来比较常见且经典的大数据Hbase面试题,希望可以帮到大家。
8080
2019-08-20 18:49:37
大数据技术的应用领域有哪些?
大数据技术逐渐成熟,已经在诸多领域得到了广泛的应用,随着5G时代的带来,数据化的企业运营成为企业优化产业结构、提升服务质量的奠基。在数据时代数据量迅速扩大、数据维度不断完善、数据分析的指导性更加明显。那大数据技术的应用领域有哪些呢?对于学习大数据技术的同学们而言,应该精准到哪些行业就业呢?
15839
2019-12-16 18:57:00
ETL数据工程师职业发展怎么样?
随着大数据发展的逐渐落地,其技术也被广泛的应用于各个领域,大数据工程师也因此成为了目前最具潜力的热门岗位。说到大数据工程师就不得不提及ETL数据工程师,相信大家对这个职位或多或少都有所了解。但是对于ETL数据工程师的具体工作内容、能力要求和职业发展规划大家又了解多少呢?本文就来和大家好好谈谈ETL数据工程师的这一岗位,希望给想从事这个行业的小伙伴一点方向的指引。
8126
2020-02-25 18:28:52
掌握Hive架构需要学什么?
Hive是建立在Hadoop上的数据仓库基础构架,它提供了一系列的工具,可以用来进行数据提取转化加载,这是一种可以存储、查询和分析存储在Hadoop中的大规模数据的机制。Hive定义了简单的类 SQL 查询语言,它允许熟悉SQL的用户查询数据。因此掌握Hive是学习大数据的必修课,那么掌握Hive架构需要学什么呢?本文将为大家讲述Hive的具体学习内容,下面是Hive视频教程的学习大纲:
4893
2020-05-11 18:05:41
大数据对教育行业重要作用有哪些?
大数据通过更好的决策、评估和增强的学习成果影响教育体系,有助于教育工作者跟踪学生的表现,并为其提供更好的学习环境。学生将不再受到静态学习计划的限制。若教育工作者广泛采用大数据系统,能够将学习过程提高到一个新水平。
9629
2021-02-04 15:16:33