课程简介
Hive是建立在 Hadoop 上的数据仓库基础构架。它提供了一系列的工具,可以用来进行数据提取转化加载,这是一种可以存储. 查询和分析存储在 Hadoop 中的大规模数据的机制。Hive 定义了简单的类 SQL 查询语言,称为 HQL,它允许熟悉 SQL 的用户查询数据。同时,这个语言也允许熟悉MapReduce 开发者的开发自定义的 mapper 和 reducer 来处理内建的 mapper 和 reducer 无法完成的复杂的分析工作。本课程是大数据学科的中级教程,将会为学员讲述Hive的具体内容,让学习者更加了解大数据学科。
适合人群
适合有一定大数据基础的学员
课程亮点
1.深入讲解如何进行数据分析
2.对数据仓库的理解透彻剖析
3.课程中已使用Hive的部署
主讲内容
第一章 数据管理与数据仓库
01. 数据分析系统不同数据来源
02. 数据管理--文件管理服务&跨部门文件管理规范
03. 数据管理--文件管理规范示例
04. 数据管理--数据质量检测
05. 数据仓库--基本概念&和数据库区别
06. 数据仓库--数据仓库主要特征
07. 数据仓库--数据仓库分层架构
08. 数据仓库--数据仓库元数据管理
第二章 Apache Hive介绍及安装部署
01. 介绍&Hive实现思路模拟
02. 架构&组件
03. 与RDBMS区别
04. 安装部署--内置derby版以及缺陷
05. 安装部署-mysql版安装
06. 安装部署-几种交互方式
07. 初体验-理解什么是映射
第三章 Apache Hive—DDL
01. DDL--创建表--数据类型&分隔符
02. DDL--创建表--默认分隔符
03. DDL--创建表--分区表创建
04. DDL--创建表--双分区表&小结
05. DDL--创建表--分桶表创建&分桶数据导入
06. DDL--创建表--分桶表总结&分桶表好处
07. DDL--创建表--内外部表&like复制
08. DDL--修改表&显示命令
第四章 Apache Hive—DML
01. DML--load装载数据
02. DML--insert&多重插入&动态分区
03. DML--导出数据
04. DML--select查询
第五章 Apache Hive—函数及其他操作
01. join操作
02. 命令行&参数配置方式
03. 内置运算符函数&dual测试方式
04. 自定义函数UDF开发
05. 了解transform
06. 特殊分隔符处理
学完收获
1 能在hive上建立企业自己的数据数仓平台
2 能针对企业自己的业务实现自己的UDF函数
-
黑马大数据讲师讲师多年JavaEE开发及编码经验,曾主导多个项目开发,熟悉SpringMVC、MyBatis、Spring等JavaWeb技术,具有多年大数据开发经验,对大数据领域中的常用框架hadoop、hive、flume、kafka、storm、spark等有丰富的实战经验和研究。授课风格严谨,课堂气氛活跃。