云计算大数据中级班（育才计划）章节-大数据就业班-博学谷

第一章 zookeeper

1-1 zookeeper入门

02.什么是分布式系统中的协调服务
03.zookeeper在各种分布式协调场景中的应用
04.zookeeper的功能介绍
05.zookeeper集群安装--虚拟机准备
06.zookeeper集群安装--配置修改--自动启动脚本编写

1-2 zookeeper进阶

07.zookeeper自身的一些特性
08.zookeeper的数据结构解析--znode--临时节点--永久节点--顺序节点
09.zookeeper的命令行客户端使用----zookeeper的数据节点的增删改查---事件监听
10.zookeeper的java客户端api(1)
10.zookeeper的java客户端api(2)
11.服务器动态上下线感知案例--需求--分析--实现
12.服务器动态上下线感知案例----程序运行测试
13.分布式共享锁的需求及实现思路
14.分布式共享锁的实现及运行测试
15.zookeeper集群的leader选举机制

第二章 redis

2-1 redis入门

16.nosql数据库的概念介绍
01.redis的特性介绍

2-2 redis的数据结构渗透

02.redis服务器启动为后台模式--命令行客户端操作string数据类型
03.string类型数据结构的api操作及对象缓存应用
04.简单任务调度队列的需求解析及实现思路
05.list数据结构的应用--简单任务调度队列的代码实现
06.hash数据结构的api操作及购物车模拟实现
07.set数据结构的api操作
08.sortedset数据结构的功能和api操作
09.sortedset数据结构应用案例--热门排行榜

2-3 基于redis的推荐系统

10.基于redis实现一个推荐系统的设计思路
11.基于redis的推荐系统----代码实现

第三章 java增强

3-1 java增强-线程

java增强--线程实现基本方式
java增强--线程同步--sychronized--lock
java增强--线程同步--读写锁readwritelock
java增强--线程池的使用

3-2 java增强-消息队列

java增强--消息队列--blockingqueue
java增强--消息服务中间件--activeMQ

3-3 动态代理

java增强--java的反射api操作
动态代理的工作机制解释
动态代理的例子实现

3-4 nio

socket编程的模型介绍--bio--aio--nio
同步阻塞IO的编程模型
nio的原理介绍
nio的编程模型之---服务端
nio的编程模型之--重新梳理
nio的编程模型之--客户端编程

3-5 netty

netty框架介绍及服务端编程模型
netty框架编程模型之----报文处理handler及客户端编程模型
netty框架编程模式实例之----发送对象数据

3-6 RPC

自定义RPC框架的需求分析
自定义rpc框架的实现之技术点----spring对象实例化过程
自定义rpc框架的实现之技术点----通过spring获取加了自定义注解的类的实例
自定义rpc框架的整体实现架构
自定义rpc框架的服务端框架封装
自定义rpc框架的服务端工作流程
自定义rpc框架的客户端实现及工作流程
自定义框架的应用程序运行测试
自定义rpc框架提供给用户使用时的依赖管理

第四章分布式系统的搭建和介绍

4-1 分布式系统介绍

离线阶段课程整体介绍
大数据、云计算、hadoop相关概念介绍
hadoop三大组件介绍和产生背景
大数据应用场景和就业形势介绍

4-2 分布式系统中三大组件的模拟实现

分布式系统介绍--HDFS模拟实现思路
分布式系统介绍--HDFS模拟实现思路补充
分布式系统介绍--MapReduce模拟实现思路
分布式系统介绍--yarn模拟实现思路

4-3 分布式系统的三大组件总结

分布式系统介绍--三大组件总结以及关系介绍1
分布式系统介绍--三大组件总结以及关系介绍2
分布式系统介绍--三大组件总结以及关系介绍3

4-4 离线分析系统的项目结构和数据处理流程以及广告推广的解决方案

离线分析系统的项目结构和数据处理流程简介
离线分析系统典型案例介绍--精准广告推送平台解决方案

4-5 hadoop集群安装

hadoop集群安装--集群节点介绍、基础环境要求
hadoop集群安装--静态ip修改、crt相关配置
hadoop集群安装--如何快速克隆虚拟机
hadoop集群安装--linux系统设置、JDK安装
hadoop集群安装--hadoop安装目录讲解
hadoop集群安装--hadoop配置文件讲解
hadoop集群安装--hdfs集群两种启动方式+UI讲解
hadoop集群安装--yarn集群启动方式+mr程序测试

第五章 HDFS

5-1 HDFS的基本操作和环境搭建

回顾hdfs的基本工作机制
hdfs的概念跟特性回顾讲解
hdfs的命令行操作常用命令1
hdfs的命令行操作常用命令2
hdfs实际开发中使用的场景
java操作hdfs环境搭建以及环境测试
hdfs客户端权限身份伪造的问题
windows平台下开发hadoop需要注意的细节

5-2 hdfs客户端操作

hdfs客户端操作--用流api进行文件上传
hdfs客户端操作--用流api进行文件下载
hdfs客户端操作--目录操作、查看文件夹以及文件信息
hdfs客户端操作--客户端流式操作的代码实现
hdfs客户端操作--上传文件（写数据）流程
hdfs客户端操作--下载文件（读数据）流程

5-3 NAMENODE工作机制

NAMENODE工作机制--元数据管理--三种存储机制
NAMENODE工作机制--元数据管理--checkpoint过程
NAMENODE工作机制--利用原理来分析解决生产中可能遇到的问题和现象

第六章案例-流量汇总和worldcount

6-1 日志采集汇聚案例

日志采集汇聚案例----需求----实现流程
日志采集汇聚案例----shell脚本实现
日志采集汇聚案例----运行测试

6-2 mapreduce初试-worldcount

回顾昨天的内容
hadoop的RPC框架讲解
第一个mapreduce程序--单词统计概述
第一个mapreduce程序--Mapper的实现
第一个mapreduce程序--Reducer的实现
第一个mapreduce程序--客户端job提交类的编写实现
第一个mapreduce程序--集群运行模式（hadoop jar）
第一个mapreduce程序--本地运行模式和debug过程
第一个mapreduce程序--本地运行提交到yarn执行可行性分析

6-3 编程案例--流量汇总

MapReduce运算框架主体工作流程
mapreduce编程案例--流量汇总--自定义对象的序列化方法
mapreduce编程案例--流量汇总--mapper实现
mapreduce编程案例--流量汇总--reducer实现
mapreduce编程案例--流量汇总--jobDriver实现及提交运行
mapreduce编程案例--流量汇总--按总流量倒序排序代码实现
mapreduce编程案例--流量汇总--按总流量倒序排序程序运行
昨天内容回顾
流量汇总排序在一个mr-job中完成
流量汇总分省份输出案例----自定义partitioner

第七章 mapreduce的工作机制

7-1 mapreduce工作机制详解

partitioner组件细节--reduce Task个数跟partition分区个数关系
Combiner组件的用法及注意事项
mapreduce工作机制详解--maptask端的机制
mapreduce工作机制详解--Reducetask端的机制
mapreduce工作机制详解--mapreduce工作机制详解----shuffle的含义
maprecduce运算框架中用户可自定义的组件总结

7-2 maptask并行度机制

maptask并行度机制--切片的原理
maptask并行度机制--切片大小参数设置、debug跟踪
maptask并行度机制优化经验之谈、reduceTask并行度决定

第八章通过案例加强mapreduce算法

8-1 mapreduce编程案例-倒排索引

mapreduce编程案例--倒排索引--需求分析
mapreduce编程案例--倒排索引--步骤1代码
mapreduce编程案例--倒排索引--步骤2代码

8-2 mapreduce编程案例--共同好友

mapreduce编程案例--共同好友--需求思路
mapreduce编程案例--共同好友--实现步骤1
mapreduce编程案例--共同好友--实现步骤2

8-3 mapreduce编程案例--join算法

mapreduce编程案例--join算法--实现思路（map端、reduce端）
mapreduce编程案例--join算法--map端join算法代码实现
mapreduce编程案例--join算法--Map端join算法运行和注意事项

8-4 mapreduce编程案例--TopN问题

mapreduce编程案例--TopN问题--Groupingcomparator使用思路
mapreduce编程案例--TopN问题--Top1代码讲解运行
mapreduce编程案例--TopN问题--TopN代码讲解运行

8-5 mapreduce编程案例--运营商日志增强

mapreduce编程案例--josn解析
mapreduce编程案例--运营商日志增强--需求分析
mapreduce编程案例--运营商日志增强--代码主体程序
mapreduce编程案例--运营商日志增强--自定义OutPutFormat
mapreduce编程案例--运营商日志增强--环境准备、运行测试

第九章 hadoop进阶

9-1 Yarn

MapReduce跟Yarn的交互过程----完整详解
yarn三种资源调度器

9-2 mapreduce的优化方案

mapreduce参数优化讲解
修改YARNRuner源码本地提交mr到Yarn
全局计数器和job串联
mapreduce数据压缩

9-3 HDFS的高可用HA

HDFS的HA机制
HA机器部署--节点规划--机器克隆
HA机器部署--环境准备--配置文件修改（含federation机制讲解）
HA机器部署--配置文件修改--集群启动步骤详解
HA下java操作hdfs代码变化和HA性能测试

第十章 hive数仓

10-1 hive数仓-介绍

hive介绍
hive架构说明
hive与hadoop之间的关系以及包含的数据模型

10-2 hive的入门

hive的安装部署
hive的使用方式--hive、hiveserver2、beeline
hive创建表以及如何加载数据到hive表中
hive内部表跟外部表之间的区别
hive分区表的使用
hive指定表的存储格式stored as

10-3 DML和DDL操作

hive表的DDL操作--修改表
hive显示命令
hive的DML操作load
hive的DDL操作insert
hive的DDL操作-select语句

10-4 hive的桶表

hive的桶表
hive桶表的实际应用

10-5 hive的提升

hive中的join操作
hive中集合类型
hive中的严格模式和非严格模式
hive shell参数使用说明

10-6 hive进阶

hive函数介绍以及自定义UDF函数
hive自定义UDF函数解析json格式的数据
hive自定义函数-transform实现
hive中多个字符分隔符处理--RegexSerDe
hive中多个字符分隔符处理-自定义inputformat
hive中累计求和的sql套路分析

第十一章 hadoop生态圈的组件

11-1 Flume介绍与安装

离线数据分析系统通用结构及所涉及的技术框架
flume的介绍和运行机制
Flume采集系统结果图
Flume的安装部署以及初使用
Flume常用的source、sink、channel介绍

11-2 flume入门

Flume采集目录文件到HDFS
Flume采集文件到HDFS
Flume常用的拦截器介绍
Flume中多个agent串联

11-3 flume进阶

Flume的高可用故障转移failover
Flume的高可用配置loadbalance
Flume的日志分类采集汇总
Flume自定义拦截器--实现字段过滤和加密
Flume实际使用时需要注意的事项说明

11-4 sqoop入门

sqoop的安装部署
sqoop的介绍和工作机制

11-5 sqoop的案例

sqoop数据导入案例（上）
sqoop数据导入案例（下）
sqoop数据导出案例
sqoop的作业和代码定制介绍

11-6 azkaban工作流调度介绍

azkaban的工作流调度器介绍
azkaban的安装部署
azkaban启动以及界面元素菜单介绍

11-7 azkaban工作流调度的使用

azkaban的使用--简单的job创建执行
azkaban的使用---多个job依赖形成工作流
azkaban的使用---HDFS操作任务
azkaban的使用---mapreduce任务
azkaban的使用---hive脚本的任务

第十二章 HBASE数据仓库

12-1 hbase的介绍和集群搭建

01、hbase介绍
02、hbase表结构逻辑视图--整体结构--cell--行健
03、hbase表结构之--列族--列--cell--时间戳
04、Hbase集群架构介绍
05、Hbase集群搭建和web页面介绍

12-2 hbase的java客户端代码编写

06、Hbase的shell客户端基本使用--表的初体验
07.hbase的客户端基本使用get查询数据-删除数据-修改数据-版本号-删除表
08.hbase的java客户端代码编写----获取连接----建表
09.hbase的java客户端代码编写----删除表---修改表的schema
10.hbase的java客户端代码编写----put插入数据、get获取数据、delete删除数据
11.hbase的java客户端代码编写----scan批量查询数据
12、hbase的java客户端代码编写--过滤器的使用
13、hbase的java客户端代码编写--分页过滤器查询

12-3 hbase的工作机制

14、hbase的工作机制--region的概率和机制
15.hbase的工作机制----menstore以及如何快速判断一条数据是否落在某个storefile--bloomfilter
16.hbased的工作机制----数据如何更新----文件的compact概念---hlog日志
17.hbased的工作机制----物理存储机制的概念梳理
18.hbase的工作机制----客户端寻址
19、hbase工作机制--读写过程

12-4 hbase的高级应用

20、hbase的高级应用
20.mapreduce读取hbase中的数据进行数据分析----mapreduce将输出处理结果写入hbase
22、hbase的二级索引实现方式--协处理器
23、通过协处理器的observer实现二级索引代码编写--运行---测试

第十三章网站点击流数据平台开发

13-1 web访问日志分析

web访问日志介绍
web访问日志分析----点击流数据模型
web访问日志分析----流量数据分析的意义
web访问日志分析----流量分析模型
网站数据分析----流量分析常见指标

13-2 数据采集与预处理

网站点击流数据分析平台架构
网站点击流数据平台开发----数据采集系统
网站点击流数据平台开发----数据预处理
网站点击流数据平台开发-----数据预处理

13-3 生成表模型调度脚本开发数据仓库设计和模型表数据导入

网站点击流数据平台开发----生成点击流模型表Pageview
网站点击流数据开发平台----生成模型表Visits表
网站点击流数据开发平台----数据预处理调度脚本开发
网站点击数数据开发平台----数据仓库设计和模型表数据导入

13-4 指标分析

网站点击流数据开发平台----明细宽表的生成
网站点击流数据开发平台----流量分析--多维度统计pv
网站点击流数据开发平台----流量分析--分组取topN和人均游览页面数
网站点击流数据开发平台----受访分析--热门页面统计分析
网站点击流数据开发平台---访客分析--独立访客--新访客
网站点击流数据开发平台---访客visit分析--回头访客--访客忠诚度
网站点击流数据开发平台--关键路径转化率分析--漏斗模型
网站点击流数据开发平台--结果导出--工作流程调度--数据可视化展现