课程简介

Hive是建立在 Hadoop 上的数据仓库基础构架。它提供了一系列的工具,可以用来进行数据提取转化加载,这是一种可以存储. 查询和分析存储在 Hadoop 中的大规模数据的机制。Hive 定义了简单的类 SQL 查询语言,称为 HQL,它允许熟悉 SQL 的用户查询数据。同时,这个语言也允许熟悉MapReduce 开发者的开发自定义的 mapper 和 reducer 来处理内建的 mapper 和 reducer 无法完成的复杂的分析工作。本课程是大数据学科的中级教程,将会为学员讲述Hive的具体内容,让学习者更加了解大数据学科。

适合人群

适合有一定大数据基础的学员

课程亮点

1.深入讲解如何进行数据分析

2.对数据仓库的理解透彻剖析

3.课程中已使用Hive的部署

主讲内容

第一章 数据管理与数据仓库

01. 数据分析系统不同数据来源

02. 数据管理--文件管理服务&跨部门文件管理规范

03. 数据管理--文件管理规范示例

04. 数据管理--数据质量检测

05. 数据仓库--基本概念&和数据库区别

06. 数据仓库--数据仓库主要特征

07. 数据仓库--数据仓库分层架构

08. 数据仓库--数据仓库元数据管理

第二章 Apache Hive介绍及安装部署

01. 介绍&Hive实现思路模拟

02. 架构&组件

03. 与RDBMS区别

04. 安装部署--内置derby版以及缺陷

05. 安装部署-mysql版安装

06. 安装部署-几种交互方式

07. 初体验-理解什么是映射

第三章 Apache Hive—DDL

01. DDL--创建表--数据类型&分隔符

02. DDL--创建表--默认分隔符

03. DDL--创建表--分区表创建

04. DDL--创建表--双分区表&小结

05. DDL--创建表--分桶表创建&分桶数据导入

06. DDL--创建表--分桶表总结&分桶表好处

07. DDL--创建表--内外部表&like复制

08. DDL--修改表&显示命令

第四章 Apache Hive—DML

01. DML--load装载数据

02. DML--insert&多重插入&动态分区

03. DML--导出数据

04. DML--select查询

第五章 Apache Hive—函数及其他操作

01. join操作

02. 命令行&参数配置方式

03. 内置运算符函数&dual测试方式

04. 自定义函数UDF开发

05. 了解transform

06. 特殊分隔符处理

学完收获

1 能在hive上建立企业自己的数据数仓平台

2 能针对企业自己的业务实现自己的UDF函数

 

师资团队
  • 黑马大数据讲师
    讲师
    多年JavaEE开发及编码经验,曾主导多个项目开发,熟悉SpringMVC、MyBatis、Spring等JavaWeb技术,具有多年大数据开发经验,对大数据领域中的常用框架hadoop、hive、flume、kafka、storm、spark等有丰富的实战经验和研究。授课风格严谨,课堂气氛活跃。