云计算大数据在线就业班章节-大数据就业班-博学谷

阶段一基础增强

展开

第一章 linux操作基础

1-1 服务器的搭建及日常操作命令

01.课程介绍免费试学
02.linux操作系统简介免费试学
03.vmware软件使用及linux系统安装免费试学
04.linux系统的图形界面及目录结构介绍免费试学
05.linux系统的网卡配置步骤免费试学
06.利用securecrt远程登录linux服务器免费试学
07.linux操作基本日常命令免费试学

1-2 文件的操作

08.linux的文件夹和目录操作--创建--移动--改名免费试学
09.安装linux的过程中可能遇到的问题及排查解决办法免费试学
10.vmware中的三种联网模式----nat--bridge--hostonly 免费试学
11.创建文件的操作命令touch--重定向--vi编辑器免费试学
12.文本文件的查看命令--cat--more--less--tail--head 免费试学
13.文件的打包压缩及解压--gzip--tar 免费试学
14.文件的搜索命令--find--grep 免费试学
15.linux中的文件权限管理命令--chmod--chown 免费试学

1-3 给用户添加权限和挂载光驱镜像

16.普通用户的sudo权限配置免费试学
17.linux中挂载存储设备--光驱--光盘镜像文件免费试学
02.linux日常系统管理指令--服务管理--进程管理免费试学

1-4 SSH免登陆和防火墙

03.linux的免密ssh登陆工作机制及配置步骤免费试学
04.linux的免密ssh登陆补充说明免费试学
05.linux的网络管理操作指令--主机名--ip--网络服务--防火墙免费试学
06.linux中安装软件的四种常见方式免费试学

1-5 linux中的软件安装

07.linux中的java软件安装--jdk--tomcat 免费试学
08.linux中的rpm软件安装--mysql 免费试学
09.linux的yum方式软件安装及私有yum源配置免费试学
10.linux的源码工程编译安装方式--redis安装免费试学

1-6 高级处理命令及定时脚本

11.linux防火墙的规则配置命令
12.linux中的高级文本处理命令--cut--sed--awk
13.linux中的定时任务调度器crontab的配置

第二章 shell编程

2-1 shell编程语法

14.shell编程概念介绍及变量定义--关于脚本运行与shell进程之间的关系--export--source--.号免费试学
15.shell编程的变量定义补充——几个特殊变量免费试学
16.shell编程流程控制语句--if--条件判断表达式的语法规则免费试学
17.shell编程流程控制语句--while--for--case 免费试学
18.shell编程之函数定义及使用免费试学

2-2 shell编程案例

19.shell编程案例——自动化批量部署软件免费试学
20.shell编程案例--批量脚本测试之前的http服务器故障解决免费试学
21.shell编程案例--批量部署脚本的测试运行免费试学

第三章 zookeeper

3-1 zookeeper入门

02.什么是分布式系统中的协调服务免费试学
03.zookeeper在各种分布式协调场景中的应用免费试学
04.zookeeper的功能介绍免费试学
05.zookeeper集群安装--虚拟机准备免费试学
06.zookeeper集群安装--配置修改--自动启动脚本编写免费试学

3-2 zookeeper进阶

07.zookeeper自身的一些特性免费试学
08.zookeeper的数据结构解析--znode--临时节点--永久节点--顺序节点免费试学
09.zookeeper的命令行客户端使用----zookeeper的数据节点的增删改查---事件监听免费试学
10.zookeeper的java客户端api(1) 免费试学
10.zookeeper的java客户端api(2) 免费试学
11.服务器动态上下线感知案例--需求--分析--实现免费试学
12.服务器动态上下线感知案例----程序运行测试免费试学
13.分布式共享锁的需求及实现思路免费试学
14.分布式共享锁的实现及运行测试免费试学
15.zookeeper集群的leader选举机制免费试学

第四章 redis

4-1 redis入门

16.nosql数据库的概念介绍
01.redis的特性介绍

4-2 redis的数据结构渗透

02.redis服务器启动为后台模式--命令行客户端操作string数据类型
03.string类型数据结构的api操作及对象缓存应用
04.简单任务调度队列的需求解析及实现思路
05.list数据结构的应用--简单任务调度队列的代码实现
06.hash数据结构的api操作及购物车模拟实现
07.set数据结构的api操作
08.sortedset数据结构的功能和api操作
09.sortedset数据结构应用案例--热门排行榜

4-3 基于redis的推荐系统

10.基于redis实现一个推荐系统的设计思路
11.基于redis的推荐系统----代码实现

第五章 java增强

5-1 java增强-线程

java增强--线程实现基本方式
java增强--线程同步--sychronized--lock
java增强--线程同步--读写锁readwritelock
java增强--线程池的使用

5-2 java增强-消息队列

java增强--消息队列--blockingqueue
java增强--消息服务中间件--activeMQ

5-3 动态代理

java增强--java的反射api操作
动态代理的工作机制解释
动态代理的例子实现

5-4 nio

socket编程的模型介绍--bio--aio--nio
同步阻塞IO的编程模型
nio的原理介绍
nio的编程模型之---服务端
nio的编程模型之--重新梳理
nio的编程模型之--客户端编程

5-5 netty

netty框架介绍及服务端编程模型
netty框架编程模型之----报文处理handler及客户端编程模型
netty框架编程模式实例之----发送对象数据

5-6 RPC

自定义RPC框架的需求分析
自定义rpc框架的实现之技术点----spring对象实例化过程
自定义rpc框架的实现之技术点----通过spring获取加了自定义注解的类的实例
自定义rpc框架的整体实现架构
自定义rpc框架的服务端框架封装
自定义rpc框架的服务端工作流程
自定义rpc框架的客户端实现及工作流程
自定义框架的应用程序运行测试
自定义rpc框架提供给用户使用时的依赖管理

第六章 MAVEN

6-1 maven入门

(新)01.什么是maven
（新）02.Maven仓库
(新)03.Maven下载及本地仓库配置
(新)04.eclipse配置maven
（新）05.Maven入门-创建工程
（新）06.Maven入门-设置编译版本
（新）07.添加依赖
（新）08.Maven入门-项目声明周期
（新）09.Maven入门-eclipse中命令使用
（新）10.Maven入门-Maven命令

6-2 创建war工程

（新）11.创建war工程
（新）12.添加SSH依赖
（新）13.SSH工程搭建-1
（新）14.SSH工程搭建-2
（新）15.定义变量
（新）16.打war包
（新）17.聚合
（新）18.继承
（新）19.聚合与继承的区别

6-3 多模块拆分规则

（新）20.多模块拆分规则
（新）21.构建多模块Maven工程-创建父工程与子模块
（新）22.构建多模块Maven工程-模块依赖与代码编写
（新）23.构建多模块Maven工程-配置文件拆分
（新）24.构建多模块Maven工程-打war包
（新）25.依赖范围
（新）26.依赖传递
（新）27.依赖调节原则
（新）28.版本锁定
（新）29.排除依赖
（新）30.单元测试-1
（新）31.单元测试-2

6-4 搭建私服

（新）32.什么是私服
（新）33.私服软件nexus的安装
（新）34.nexus-创建索引-1
（新）35.nexus-创建索引-2
（新）36.仓库类型
（新）37.镜像配置-1
（新）38.镜像配置-2
（新）39.发布自己的jar到nexus
（新）40.发布第三方的工程jar到私服
（新）41.SVN准备工作
（新）42.签入与签出单模块工程
（新）43.签入maven多模块工程
（新）44.签出maven多模块工程
（新）45.总结

阶段二 hadoop分布式系统

展开

第一章分布式系统的搭建和介绍

1-1 分布式系统介绍

离线阶段课程整体介绍免费试学
大数据、云计算、hadoop相关概念介绍免费试学
hadoop三大组件介绍和产生背景免费试学
大数据应用场景和就业形势介绍免费试学

1-2 分布式系统中三大组件的模拟实现

分布式系统介绍--HDFS模拟实现思路免费试学
分布式系统介绍--HDFS模拟实现思路补充免费试学
分布式系统介绍--MapReduce模拟实现思路免费试学
分布式系统介绍--yarn模拟实现思路免费试学

1-3 分布式系统的三大组件总结

分布式系统介绍--三大组件总结以及关系介绍1 免费试学
分布式系统介绍--三大组件总结以及关系介绍2 免费试学
分布式系统介绍--三大组件总结以及关系介绍3 免费试学

1-4 离线分析系统的项目结构和数据处理流程以及广告推广的解决方案

离线分析系统的项目结构和数据处理流程简介免费试学
离线分析系统典型案例介绍--精准广告推送平台解决方案免费试学

1-5 hadoop集群安装

hadoop集群安装--集群节点介绍、基础环境要求
hadoop集群安装--静态ip修改、crt相关配置
hadoop集群安装--如何快速克隆虚拟机
hadoop集群安装--linux系统设置、JDK安装
hadoop集群安装--hadoop安装目录讲解
hadoop集群安装--hadoop配置文件讲解
hadoop集群安装--hdfs集群两种启动方式+UI讲解
hadoop集群安装--yarn集群启动方式+mr程序测试

第二章 HDFS

2-1 HDFS的基本操作和环境搭建

回顾hdfs的基本工作机制
hdfs的概念跟特性回顾讲解
hdfs的命令行操作常用命令1
hdfs的命令行操作常用命令2
hdfs实际开发中使用的场景
java操作hdfs环境搭建以及环境测试
hdfs客户端权限身份伪造的问题
windows平台下开发hadoop需要注意的细节

2-2 hdfs客户端操作

hdfs客户端操作--用流api进行文件上传
hdfs客户端操作--用流api进行文件下载
hdfs客户端操作--目录操作、查看文件夹以及文件信息
hdfs客户端操作--客户端流式操作的代码实现
hdfs客户端操作--上传文件（写数据）流程
hdfs客户端操作--下载文件（读数据）流程

2-3 NAMENODE工作机制

NAMENODE工作机制--元数据管理--三种存储机制
NAMENODE工作机制--元数据管理--checkpoint过程
NAMENODE工作机制--利用原理来分析解决生产中可能遇到的问题和现象

第三章案例-流量汇总和worldcount

3-1 日志采集汇聚案例

日志采集汇聚案例----需求----实现流程
日志采集汇聚案例----shell脚本实现
日志采集汇聚案例----运行测试

3-2 mapreduce初试-worldcount

回顾昨天的内容
hadoop的RPC框架讲解
第一个mapreduce程序--单词统计概述
第一个mapreduce程序--Mapper的实现
第一个mapreduce程序--Reducer的实现
第一个mapreduce程序--客户端job提交类的编写实现
第一个mapreduce程序--集群运行模式（hadoop jar）
第一个mapreduce程序--本地运行模式和debug过程
第一个mapreduce程序--本地运行提交到yarn执行可行性分析

3-3 编程案例--流量汇总

MapReduce运算框架主体工作流程
mapreduce编程案例--流量汇总--自定义对象的序列化方法
mapreduce编程案例--流量汇总--mapper实现
mapreduce编程案例--流量汇总--reducer实现
mapreduce编程案例--流量汇总--jobDriver实现及提交运行
mapreduce编程案例--流量汇总--按总流量倒序排序代码实现
mapreduce编程案例--流量汇总--按总流量倒序排序程序运行
昨天内容回顾
流量汇总排序在一个mr-job中完成
流量汇总分省份输出案例----自定义partitioner

第四章 mapreduce的工作机制

4-1 mapreduce工作机制详解

partitioner组件细节--reduce Task个数跟partition分区个数关系
Combiner组件的用法及注意事项
mapreduce工作机制详解--maptask端的机制
mapreduce工作机制详解--Reducetask端的机制
mapreduce工作机制详解--mapreduce工作机制详解----shuffle的含义
maprecduce运算框架中用户可自定义的组件总结

4-2 maptask并行度机制

maptask并行度机制--切片的原理
maptask并行度机制--切片大小参数设置、debug跟踪
maptask并行度机制优化经验之谈、reduceTask并行度决定

第五章通过案例加强mapreduce算法

5-1 mapreduce编程案例-倒排索引

mapreduce编程案例--倒排索引--需求分析
mapreduce编程案例--倒排索引--步骤1代码
mapreduce编程案例--倒排索引--步骤2代码

5-2 mapreduce编程案例--共同好友

mapreduce编程案例--共同好友--需求思路
mapreduce编程案例--共同好友--实现步骤1
mapreduce编程案例--共同好友--实现步骤2

5-3 mapreduce编程案例--join算法

mapreduce编程案例--join算法--实现思路（map端、reduce端）
mapreduce编程案例--join算法--map端join算法代码实现
mapreduce编程案例--join算法--Map端join算法运行和注意事项

5-4 mapreduce编程案例--TopN问题

mapreduce编程案例--TopN问题--Groupingcomparator使用思路
mapreduce编程案例--TopN问题--Top1代码讲解运行
mapreduce编程案例--TopN问题--TopN代码讲解运行

5-5 mapreduce编程案例--运营商日志增强

mapreduce编程案例--josn解析
mapreduce编程案例--运营商日志增强--需求分析
mapreduce编程案例--运营商日志增强--代码主体程序
mapreduce编程案例--运营商日志增强--自定义OutPutFormat
mapreduce编程案例--运营商日志增强--环境准备、运行测试

第六章 hadoop进阶

6-1 Yarn

MapReduce跟Yarn的交互过程----完整详解
yarn三种资源调度器

6-2 mapreduce的优化方案

mapreduce参数优化讲解
修改YARNRuner源码本地提交mr到Yarn
全局计数器和job串联
mapreduce数据压缩

6-3 HDFS的高可用HA

HDFS的HA机制
HA机器部署--节点规划--机器克隆
HA机器部署--环境准备--配置文件修改（含federation机制讲解）
HA机器部署--配置文件修改--集群启动步骤详解
HA下java操作hdfs代码变化和HA性能测试

阶段三数据仓库

展开

第一章 hive数仓

1-1 hive数仓-介绍

hive介绍
hive架构说明
hive与hadoop之间的关系以及包含的数据模型

1-2 hive的入门

hive的安装部署
hive的使用方式--hive、hiveserver2、beeline
hive创建表以及如何加载数据到hive表中
hive内部表跟外部表之间的区别
hive分区表的使用
hive指定表的存储格式stored as

1-3 DML和DDL操作

hive表的DDL操作--修改表
hive显示命令
hive的DML操作load
hive的DDL操作insert
hive的DDL操作-select语句

1-4 hive的桶表

hive的桶表
hive桶表的实际应用

1-5 hive的提升

hive中的join操作
hive中集合类型
hive中的严格模式和非严格模式
hive shell参数使用说明

1-6 hive进阶

hive函数介绍以及自定义UDF函数
hive自定义UDF函数解析json格式的数据
hive自定义函数-transform实现
hive中多个字符分隔符处理--RegexSerDe
hive中多个字符分隔符处理-自定义inputformat
hive中累计求和的sql套路分析

第二章 hadoop生态圈的组件

2-1 Flume介绍与安装

离线数据分析系统通用结构及所涉及的技术框架
flume的介绍和运行机制
Flume采集系统结果图
Flume的安装部署以及初使用
Flume常用的source、sink、channel介绍

2-2 flume入门

Flume采集目录文件到HDFS
Flume采集文件到HDFS
Flume常用的拦截器介绍
Flume中多个agent串联

2-3 flume进阶

Flume的高可用故障转移failover
Flume的高可用配置loadbalance
Flume的日志分类采集汇总
Flume自定义拦截器--实现字段过滤和加密
Flume实际使用时需要注意的事项说明

2-4 sqoop入门

sqoop的安装部署
sqoop的介绍和工作机制

2-5 sqoop的案例

sqoop数据导入案例（上）
sqoop数据导入案例（下）
sqoop数据导出案例
sqoop的作业和代码定制介绍

2-6 azkaban工作流调度介绍

azkaban的工作流调度器介绍
azkaban的安装部署
azkaban启动以及界面元素菜单介绍

2-7 azkaban工作流调度的使用

azkaban的使用--简单的job创建执行
azkaban的使用---多个job依赖形成工作流
azkaban的使用---HDFS操作任务
azkaban的使用---mapreduce任务
azkaban的使用---hive脚本的任务

第三章 HBASE数据仓库

3-1 hbase的介绍和集群搭建

01、hbase介绍
02、hbase表结构逻辑视图--整体结构--cell--行健
03、hbase表结构之--列族--列--cell--时间戳
04、Hbase集群架构介绍
05、Hbase集群搭建和web页面介绍

3-2 hbase的java客户端代码编写

06、Hbase的shell客户端基本使用--表的初体验
07.hbase的客户端基本使用get查询数据-删除数据-修改数据-版本号-删除表
08.hbase的java客户端代码编写----获取连接----建表
09.hbase的java客户端代码编写----删除表---修改表的schema
10.hbase的java客户端代码编写----put插入数据、get获取数据、delete删除数据
11.hbase的java客户端代码编写----scan批量查询数据
12、hbase的java客户端代码编写--过滤器的使用
13、hbase的java客户端代码编写--分页过滤器查询

3-3 hbase的工作机制

14、hbase的工作机制--region的概率和机制
15.hbase的工作机制----menstore以及如何快速判断一条数据是否落在某个storefile--bloomfilter
16.hbased的工作机制----数据如何更新----文件的compact概念---hlog日志
17.hbased的工作机制----物理存储机制的概念梳理
18.hbase的工作机制----客户端寻址
19、hbase工作机制--读写过程

3-4 hbase的高级应用

20、hbase的高级应用
20.mapreduce读取hbase中的数据进行数据分析----mapreduce将输出处理结果写入hbase
22、hbase的二级索引实现方式--协处理器
23、通过协处理器的observer实现二级索引代码编写--运行---测试

阶段四网站点击流数据平台开发

展开

第一章网站点击流数据平台开发

1-1 web访问日志分析

web访问日志介绍
web访问日志分析----点击流数据模型
web访问日志分析----流量数据分析的意义
web访问日志分析----流量分析模型
网站数据分析----流量分析常见指标

1-2 数据采集与预处理

网站点击流数据分析平台架构
网站点击流数据平台开发----数据采集系统
网站点击流数据平台开发----数据预处理
网站点击流数据平台开发-----数据预处理

1-3 生成表模型调度脚本开发数据仓库设计和模型表数据导入

网站点击流数据平台开发----生成点击流模型表Pageview
网站点击流数据开发平台----生成模型表Visits表
网站点击流数据开发平台----数据预处理调度脚本开发
网站点击数数据开发平台----数据仓库设计和模型表数据导入

1-4 指标分析

网站点击流数据开发平台----明细宽表的生成
网站点击流数据开发平台----流量分析--多维度统计pv
网站点击流数据开发平台----流量分析--分组取topN和人均游览页面数
网站点击流数据开发平台----受访分析--热门页面统计分析
网站点击流数据开发平台---访客分析--独立访客--新访客
网站点击流数据开发平台---访客visit分析--回头访客--访客忠诚度
网站点击流数据开发平台--关键路径转化率分析--漏斗模型
网站点击流数据开发平台--结果导出--工作流程调度--数据可视化展现

阶段五流式计算

展开

第一章 Storm编程快速入门

1-1 Storm架构分析

1、Storm编程快速入门-什么是离线计算免费试学
2、Storm编程快速入门-实时计算代表性技术及如何实时获取数据免费试学
3、Storm编程快速入门-Storm如何实时计算数据免费试学

1-2 Storm WordCount案例及常用Api分析

4、Storm编程快速入门-Storm单词计算需求分析免费试学
5、Storm编程快速入门-在idea中创建storm项目并导入依赖免费试学
6、Storm编程快速入门-编写WordCount的MyLocalFilterSpout类免费试学
7、Storm编程快速入门-编写WordCount的MySplitBolt类免费试学
8、Storm编程快速入门-编写WordCount的MyWordCountBolt类免费试学
9、Storm编程快速入门-编写Storm TopologyBuilder驱动类及本地模式运行与调错免费试学
10、Storm编程快速入门-Storm WordCount在集群模式下运行及打包注意事项免费试学

1-3 Storm并发度和分组的概念

11、Storm编程快速入门-Storm并行度的概念
12、Storm编程快速入门-Storm分组的概念
13、Storm编程快速入门-Storm Local or Shuffle Grouping分组策略及worker的默认值，组件并行度的默认值
14、Storm编程快速入门-改变WordCount的worker数和每个组件的并行度，观察task的平均分配

1-4 Storm集群部署实战

15、Storm编程快速入门-Storm集群安装部署示意
16、Storm编程快速入门-Storm的Nmbus、Ui、Supervisor、Worker组件介绍及任务提交的简单过程
17、Storm编程快速入门-Storm基础知识总结梳理（Storm是什么、Storm编程模型、Storm集群架构）

1-5 Storm+Kafka+Redis整合

18、Storm编程快速入门-从零开始整合kafka+storm+redis，并调试遇到错误

第二章 Storm集群启动及任务执行过程

2-1 Strom集群启动及源码分析

19、Storm集群启动及任务执行过程-集群启动过程分析之python脚本storm的分析
20、Storm集群启动及任务执行过程-集群启动过程分析之supervisor启动worker的分析

2-2 Storm任务提交及源码分析

21、Storm集群启动及任务执行过程-Client任务提交过程分析
22、Storm集群启动及任务执行过程-Nimbus任务分配过程分析
23、Storm集群启动及任务执行过程-梳理任务提交、任务分配及worker启动流程
24、Storm集群启动及任务执行过程-worker启动Task过程分析

第三章 Storm核心机制

3-1 Storm核心机制-Ack容错机制

25、Storm核心机制-Ack机制概述
26、Storm核心机制-Ack机制编程之AckSpout类编写
27、Storm核心机制-Ack机制编程之Bolt类的实现
28、Storm核心机制-Ack机制编程之验证消息处理成功和失败后的状态
29、Storm核心机制-Ack机制编程API总结及不需要手动锚点的BaseBasicBolt接口
30、Storm核心机制-ACK机制编程之BaseBasicBolt演编写，不需要手动锚点和反馈
31、Storm核心机制-ACK机制的实现原理--异或算法与Acker Bolt

3-2 Storm核心机制-Storm通信机制和数据分发机制

32、Storm核心机制-Storm通信机制（Netty和Disruptor）
33、Storm核心机制-Storm数据分发机制

第四章 Storm上游消息平台Kafka

4-1 Kafka的介绍和安装

1、Storm上游消息平台Kafka-Kafka快速入门-Kakfa的基本介绍
2、Storm上游消息平台Kafka-Kafka快速入门-Kafka集群搭建
3、Storm上游消息平台Kafka-Kafka快速入门-通过Kafka脚本创建topic、并进行生产数据及消费

4-2 kafka的生产者和消费者

4、Storm上游消息平台Kafka-Kafka快速入门-Kafka生产者java api编写
5、Storm上游消息平台Kafka-Kafka快速入门-Kafka消费者java api说明

4-3 kafka之Partition

6、Storm上游消息平台Kafka-Kafka快速入门-Kafka partition的概念
7、Storm上游消息平台Kafka-Kafka快速入门-Kafka partition的三个问题（partition有什么用，数据丢失怎么办，leader的作用）
8、Storm上游消息平台Kafka-Kafka快速入门-producer端负责数据的分发，默认分发策略是hashpartition
9、Storm上游消息平台Kafka-Kafka快速入门-Producer端自定义partition并配置运行的步骤
10、Storm上游消息平台Kafka-Kafka快速入门-Producer端自定义partition两个源码中的小细节
11、Storm上游消息平台Kafka-Kafka快速入门-Partition的Segment段的说明及展示

4-4 kafka进阶

12、Storm上游消息平台Kafka-Kafka快速入门-了解Kafka为什么这么快（pagecahe,sendfile）
13、Storm上游消息平台Kafka-Kafka快速入门-kafka consumer及consumerGroup的概念
14、Storm上游消息平台Kafka-Kafka快速入门-Kafka集群整体概念梳理
15、Storm上游消息平台Kafka-day02-Kafka快速入门-kafkaKakfa配置文件说明
16、Storm上游消息平台Kafka-数据从kakfa生产到storm消费阶段不丢失和重复消费的分析
17、Storm上游消息平台Kafka-打通实时计算技术架构-模拟Nginx+flume数据采集+Kafka集群+Storm+Redis

阶段六流失计算项目篇

展开

第一章项目篇---日志监控告警系统功能分析

1-1 数据采集以及模块设计

1、日志监控告警系统需求说明
2、日志监控告警系统功能分析
3、日志监控告警系统功能分析-Flume日志采集模块设计（appid申请及flumeNg部署流程）
4、日志监控告警系统功能分析-Flume日志采集模块开发-编写flume配置文件及开发自定义拦截器并打包部署
5、日志监控告警系统功能分析-Kafka日志存储模块设计（分片数量，broker数量，集群容量）
6、日志监控告警系统功能分析-Kafka日志存储之创建Topic
7、日志监控告警系统功能分析-Storm实时计算模块设计-整体流程设计
8、日志监控告警系统功能分析-Storm实时计算模块设计-定时更新模块设计

1-2 日志监控告警系统--代码实现

9、日志监控告警系统功能分析-数据库表结构设计（表结构说明及sql语句）
10、日志监控告警系统功能分析-后台管理操作说明
11、日志监控告警系统功能分析-系统整体流程梳理
12、日志监控告警系统功能分析-通过debug的方式运行并演示程序
13、日志监控告警系统功能分析-代码整体流程说明及避免重复告警
14、日志监控告警系统功能分析-定时加载和每个worker中只加载一次
15、日志监控告警系统功能分析-其他代码说明（数据库C3P0、发短信、发邮件）
16、日志监控告警系统功能分析-项目核心知识点总结

第二章 Storm点击流日志分析系统

2-1 Storm点击流日志分析系统分析

1、Storm点击流日志分析系统-内容概述
2、Storm点击流日志分析系统-网站分析宏观认识
3、Storm点击流日志分析系统-点击流日志产生的过程
4、Storm点击流日志分析系统-点击流实时分析系统架构分析

2-2 Storm点击流日志分析系统-转化说明

5、Storm点击流日志分析系统-点击流数据说明-数据分析案例-转化说明
6、Storm点击流日志分析系统-Storm程序设计及增量程序设计

2-3 Storm点击流日志分析系统-代码实现

7、Storm点击流日志分析系统-日志分析系统流程梳理
8、Storm点击流日志分析系统-日志分析系统-Storm代码梳理
9、Storm点击流日志分析系统-Storm程序运行演示
10、Storm点击流日志分析系统-增量程序计算逻辑及cachedata说明
11、Storm点击流日志分析系统-程序集成显示及调错
12、Storm点击流日志分析系统-模拟产品经理输入

第三章电商实时交易风控系统

3-1 电商实时交易风控系统-了解业务风险点

1、电商实时交易风控系统-项目概述及重点
2、电商实时交易风控系统-了解业务风险点-银行信用卡的风险点
3、电商实时交易风控系统-了解业务风险点-电商网站为什么要刷单
4、电商实时交易风控系统-了解业务风险点-刷单处理策略及降权因素初步分析
5、电商实时交易风控系统-了解业务风险点-一般商家刷单流程的梳理
6、电商实时交易风控系统-了解业务风险点-电商信用卡的套现

3-2 电商实时交易风控系统-设计实现

7、电商实时交易风控系统-设计实现-项目整体分析（需求分析、功能分析）
8、电商实时交易风控系统-设计实现-规则的组成分析
9、电商实时交易风控系统-设计实现-规则表结构设计
10、电商实时交易风控系统-设计实现-开发进度的规划
11、电商实时交易风控系统-设计实现-其他表结构及sql脚本

第四章推荐系统

4-1 推荐系统介绍

1、从零开始构建推荐系统-基础理论-推荐系统基本概念
2、从零开始构建推荐系统-基础理论-推荐系统是什么？
3、从零开始构建推荐系统-基础理论-推荐系统的常见分类

4-2 推荐算法

4、从零开始构建推荐系统-基础理论-基于用户的系统过滤算法的原理介绍、计算逻辑分析、冷启动等问题
5、从零开始构建推荐系统-基础理论-基于物品的系统过滤算法的原理介绍、计算逻辑分析及问题
6、从零开始构建推荐系统-基础理论-其它推荐算法及混合推荐策略（不同阶段、不同位置）

4-3 推荐系统实现

7、从零开始构建推荐系统-基础理论-推荐系统的应用场景及京东淘宝网站的架构
8、从零开始构建推荐系统-设计实现-数据采集方案
9、从零开始构建推荐系统-设计实现-通过小偷程序保存数据到Hadoop HDFS集群
10、从零开始构建推荐系统-设计实现-离线推荐算法的整体架构
11、从零开始构建推荐系统-设计实现-离线数据归一化处理
12、从零开始构建推荐系统-设计实现-从零开始构建推荐系统-使用MapReduce对数据进行归一化处理及选用数据的误区
13、从零开始构建推荐系统-设计实现-从零开始构建推荐系统-算法模型中相似度计算和最近领域选择
14、从零开始构建推荐系统-设计实现-在Hadoop上提交mahout推荐Job并解决集群时间不同步的异常
15、从零开始构建推荐系统-设计实现-查看Mahout MR程序的输出结果
16、从零开始构建推荐系统-设计实现-使用Mahout Java Api开发协同过滤推荐引擎
17、从零开始构建推荐系统-设计实现-使用Mahout离线推荐结果实现推荐逻辑并完善推荐引擎（默认推荐结果、结果补全、过滤、丰富性控制、排序）
18、从零开始构建推荐系统-设计实现-增加实时标签影响用户的推荐结果（离线结果有一定的延迟，用户感兴趣的是当前正在浏览的商品）
19、从零开始构建推荐系统-设计实现-猜你喜欢推荐模块（推荐位排序，多个推荐模型）
20、从零开始构建推荐系统-设计实现-通过debug方式演示推荐引擎的代码逻辑-整体流程
21、从零开始构建推荐系统-设计实现-从Redis中获取离线推荐结果集，并判断上下线状态
22、从零开始构建推荐系统-设计实现-结合物品相似度（协同过滤、内容）与用户当前浏览的商品进行实时推荐
23、从零开始构建推荐系统-设计实现-去重多个模型的推荐结果集
24、从零开始构建推荐系统-设计实现-推荐系统总结梳理（技术方向、业务方向）

阶段七内存计算

展开

第一章 scala编程

1-1 scala工具的使用

01spark与hadoop的简单比较
02scala简介
03scala编译器安装
04scala开发工具和插件安装
05利用IEDA编写scala程序
06scala插件安装问题

1-2 scala的基本入门

07scala变量定义
08scala循环
09scala的判断
10scala操作符重载
11scala方法的定义

1-3 scala之函数

12定义函数
13.函数的定义2
14将方法转换成函数
15函数和方法总结

1-4 scala的数组、元组、集合的操作

16.scala数组常用方法
18元组
19.scala集合
17.scala的映射

1-5 scala版本的wordcount

20.scala单机版WordCount

1-6 scala知识点总结

21方法与函数回顾以及习题讲解

1-7 并行集合

01并行集合

1-8 scala类相关操作

02scala定义类
03scala构造器
04单例对象
05apply方法
06继承和实现特质

1-9 模式匹配、option类型以及偏函数

07模式匹配
08option类型
09偏函数

1-10 actor编程

10actor编程
11java的Future回顾
12.用Actor编写一个WordCount程序

1-11 akka入门

01akka的简介1
02akka简介2
03.akka通信小例子

1-12 案例-akka自定义RPC

04RPC通信的需求
05Akka自定义RPC-1
06Akka自定义RPC-2
07Akka自定义RPC-3

1-13 scala-柯里化

08柯里化

1-14 scala-隐式转换

01隐式转换简介
02隐式转换入门

1-15 scala泛型相关操作

03scala的泛型
04隐式转换-视图界定
05上下文界定-隐式转换
06隐式转换加强

1-16 scala复习

1、复习scala

第二章 spark入门

2-1 spark官方文档详解和如何通过官方文档学习spark

2、spark官方文档详解和如何通过官方文档学习spark 免费试学

2-2 安装standalone模式的spark

3、安装standalone模式的spark--单master 免费试学
4、安装standalone模式的spark--多master 免费试学

2-3 spark-shell

5、spark-shell的单机执行和集群执行模式、shell版wordcount 免费试学
6、在spark-shell中运行集群wordcount 免费试学
7、spark-shell从hdfs读取数据免费试学

2-4 在集群提交运行spark任务

8、通过scala的api写wordcount，将结果输出到不同的数据源
9、在集群提交运行spark任务

2-5 spark入门总结

10、spark入门总结

2-6 不通语言编写spark程序

11、python写spark，并运行在集群上
12、java写spark，并运行在本地
13、R写spark，并运行在集群

第三章 sparkRDD

3-1 RDD相关概念

14、提前预习RDD相关概念
15、复习
1、复习spark第一天

3-2 rdd详解

2、RDD的概念
3、通过RDD的转换方式对RDD详细解释

3-3 算子的transformation和action

4、RDD的transformation算子（上）
5、RDD的Action算子讲解

3-4 RDD的练习-iplocation

6、RDD的练习
7、iplocation的需求
8、iplocation的代码实现
9、将数据结果分区保存数据库

3-5 宽依赖和窄依赖以及stage的划分

10、复习
1、复习+宽依赖窄依赖+stage划分+集群运行原理
2、问题1

3-6 spark的cache和checkpoint

3、如何设置cache、如何设置checkpoint
4、问题2

3-7 pv、uv案例分析

5、PV案例
6、UV案例
7、pv、uv的环比分析

3-8 topk案例

8、topk案例

3-9 moble_location案例

9、moblelocation需求分析
10、代码实现--计算多余时间
11、代码实现-计算家庭地点和工作地点

第四章 sparkSQL

4-1 sparkSQL入门

12、spark-sql简介
13、spark-sql入门

4-2 sparkSQL的操作

14、datafrom简单操作
15、spark-sql的命令行创建表
16、spark-sql的api操作的两种模式

4-3 sparkSQL的总结和复习

17、总结sql
1、复习SQL

4-4 sparkSQL对接mysql

2、学习目标
3、通过spark-sql加载mysql的数据和表结构
4、spark-sql读取mysql数据验证sql语句
5、spark-sql操作mysql向数据库写数据

4-5 sparkSQL对接hive

6、spark-sql操作hive简介
7、hive on spark-sql

第五章 sparkStreaming

5-1 sparkStreaming的操作

8、spark-streaming的介绍
9、R on spark
10、spark-steaming的图解
11、通过tcp接收数据进行spark-streaming处理
12、updateStateByKey的讲解
13、window操作

5-2 扩展资料jedis源码

14、扩展资料jedis源码

5-3 flume+kafka+sparkStreaming整合

15、从flume中拉去数据到spark-streaming处理
16、flume想spark-streaming生产数据
17、spark-streaming从kafka中读取数据

5-4 总结SparkStreaming

18、总结SparkStreaming

阶段八内存计算项目与源码分析

展开

第一章用户画像

1-1 用户画像介绍

1、电商大数据之应用--用户画像是什么
2、电商大数据之应用--构建用户画像的意义

1-2 用户画像建模

3、电商大数据之应用--构建用户画像流程和技术
4、电商大数据之应用--用户画像建模--用户基本属性表
5、电商大数据之应用--用户画像建模--客户消费订单表
6、电商大数据之应用--用户画像建模--客户购买类目表
7、电商大数据之应用--用户画像建模--用户访问信息表

1-3 sparksql与hive整合以及数仓建立

8、电商大数据之应用--sparksql与hive整合
9、电商大数据之应用--数据仓库建立

1-4 客户基本属性表模型开发

10、电商大数据之应用--用户画像数据开发步骤流程
11、电商大数据之应用-用户画像开发-客户基本属性表模型开发（shell脚本封装案例）

1-5 订单宽表模型开发

12、电商大数据之应用-用户画像开发-订单宽表模型开发
13、电商大数据之应用-用户画像开发-客户消费订单表模型开发

1-6 客户购买类目表模型开发

14、电商大数据之应用-用户画像开发-客户购买类目表模型开发

1-7 客户访问信息表模型开发

15、电商大数据之应用-用户画像开发-客户访问信息表模型开发

1-8 用户画像宽表模型+hive与hbase整合

16、电商大数据之应用-用户画像开发-用户画像宽表模型+hive与hbase整合

1-9 hive数据导入hbase表中

17、电商大数据之应用-用户画像开发-用户画像宽表模型--hive数据导入hbase表中

1-10 数据可视化

18、电商大数据之应用-用户画像开发-用户画像宽表模型--数据可视化（数据导入phoenix）
19、电商大数据之应用-用户画像开发-数据展现
20、电商大数据之应用-用户画像开发-查询演示

第二章 spark项目-游戏反外挂日志分析

2-1 游戏项目介绍

1、课程目标以及网站部分指标介绍
2、日志分析整体流程
3、日志采集服务器采集方式简介
4、游戏背景介绍

2-2 服务器部署

5、数据来源
6、服务器部署情况
7、日志采集服务器的部署简介
8、日志分析流程总结

2-3 logstash快速入门

9、ELK工作栈的简介
10、logstash简介
11、logstash快速入门
12、logstash的工作原理
13、第一个logstash程序
14、logstash简单命令介绍
15、配置文件说明
16、input插件file的详解

2-4 logstash于kafka对接

17、logstash于kafka对接
18、将游戏日志对接到kafka中
19、logstash从kafka中读取数据
20、点击流日志对接kafka

2-5 es的快速入门

21、将游戏日志对接到hdfs
22、讲数据对接es的步骤（后面实现）
23、es的简介
24、es的安装详解
24、es的插件安装
25、es的快速入门
26、es的复杂查询举例

2-6 kafka数据对接到es

27、将kafka数据对接到es中
28、将kafka数据对接到es中(下)
29、将游戏操作日志对接到kafka中
30、将kafka游戏操作日志对接到es中

2-7 实现游戏指标的统计和外挂监控

31、spark从es中读取数据，实现游戏玩家分布（程序对接自己实现）
32、工具类介绍
33、游戏指标统计--日新增玩家
34、游戏指标统计--日活跃用户
35、游戏指标统计--玩家留存和留存率
36、游戏指标统计--总结
37、游戏外挂监控程序--顶药外挂
38、游戏外挂监控程序--顶药外挂运行结果

第三章 spark源码分析

3-1 下载源码及编译源码

1、master和worker启动的流程
2、下载spark源代码
3、编译spark源码，并且将源码导入到IDEA

3-2 master源码分析

4、spark程序的入口，start-all.sh脚本详解
4-2、Master和worker启动的整体流程详解图
5、Master的main方法执行逻辑
6、Master的主构造器中的执行逻辑
7、Master的actor的prestart方法执行逻辑
8、Master的actor的receive方法的执行逻辑

3-3 worker源码分析

9、Worker类的main方法的执行逻辑
10、Worker类的主构造器的执行逻辑
11、Worker的actor的prestart方法的执行逻辑

3-4 master和worker通信

12、Worker向master注册节点信息的执行逻辑
13、Worker和Master之间的心跳处理流程
14、总结master和worker启动后的流程

3-5 任务的提交

15、Master的schedule方法触发的机制
15-2、任务提交后，执行前的逻辑详解
16、spark-submit脚本提交任务的执行逻辑
17、任务执行前框架进行的环境准备详解（任务分发调度、任务调度）
18、任务提交流程图详解
19、Master接收到ClientActor任务后，进行worker资源的分配
20、任务开始之前的准备阶段，DAG启动线程监听任务阻塞队列_clip
21、Master通知Worker启动executor
21-2、代码的action执行后，触发的任务提交流程图详解
22、通过transformation生成RDD和通过action提交任务
23、任务提交，开始划分stage之前的准备阶段

3-6 划分stage

24、划分stage
25、划分stage总结

3-7 将taskSet提交给executor，并执行任务

26、将stage封装到taskset中，提交给executor
27、executor执行任务
28、源码整体流程回顾

阶段九 python入门（赠送课程）

展开

第一章 python入门

1-1 python介绍

运行环境-Python是什么
python版本选择-windows安装python
python语法基本类型

1-2 数据结构

python数据结构-list操作
python数据结构-dict(map)
python数据结构-set
python数据结构-tuple

1-3 控制语句

python控制语句
python控制语句中的continue和break关键字

第二章 python进阶

2-1 面向对象

面向对象-创建类（构造器，成员变量、方法、主函数）
面向对象-继承、多态及鸭子类型
面向对象-获取类的类型、方法和属性（类似java的反射）

2-2 常用代码

常用代码-open方法进行文件读写操作
常用代码-时间转化及时间加减操作
常用代码-集合增强（namedtuple-deque）
常用代码-ordereddict-counter
常用代码-简单的网络爬虫

2-3 网络通信

20、常用代码-网络通信+多线程
常用代码-网络通信（2）-tcp客户端编写、python编码格式转换（str-bytes转换）
网络通信（3）-server-client互发信息
邮件操作（1）-邮件发送
邮件操作（2）-接受邮件
邮件操作（3）-解析每逢邮件

2-4 数据库操作

数据库操作（1）-安装MySQLdb(跳坑)
数据库操作（2）-数据库的增删改查操作

第三章 Python项目实战-虎嗅爬虫

3-1 虎嗅爬虫

Python入门-Python项目实战-垂直爬虫开发-虎嗅爬虫（1）-爬虫需求说明
Python入门-Python项目实战-垂直爬虫开发-虎嗅爬虫（2）-urllib.request回顾
Python入门-Python项目实战-垂直爬虫开发-虎嗅爬虫（3）-beautifulSoup基础学习
Python入门-Python项目实战-垂直爬虫开发-虎嗅爬虫（4）-beautifulSoup实战演练
Python入门-Python项目实战-垂直爬虫开发-虎嗅爬虫（5）-解析虎嗅网站的首页
Python入门-Python项目实战-垂直爬虫开发-虎嗅爬虫（6）-解析虎嗅的新闻页
Python入门-Python项目实战-垂直爬虫开发-虎嗅爬虫（7）-保存解析后的数据
Python入门-Python项目实战-垂直爬虫开发-虎嗅爬虫（8）-分页功能分析及代码开发1
Python入门-Python项目实战-垂直爬虫开发-虎嗅爬虫（9）-分页功能分析及代码开发2
Python入门-Python项目实战-垂直爬虫开发-虎嗅爬虫（10）-分页功能分析及代码开发3
Python入门-Python项目实战-垂直爬虫开发-虎嗅爬虫（11）-分页功能、代码重构、调试、完全运行
Python入门-Python项目实战-垂直爬虫开发-虎嗅爬虫（12）-爬虫演示及设置间隔时间
Python入门-Python项目实战-垂直爬虫开发-虎嗅爬虫（13）-项目总结

第四章 Python项目实战-单机游戏开发-打飞机

4-1 单机游戏开发

Python入门-Python项目实战-单机游戏开发-打飞机（1）-需求说明
Python入门-Python项目实战-单机游戏开发-打飞机（2）-游戏窗口设置、背景图片设置、按键监听
Python入门-Python项目实战-单机游戏开发-打飞机（3）-显示用户飞机
Python入门-Python项目实战-单机游戏开发-打飞机（4）-飞机移动
Python入门-Python项目实战-单机游戏开发-打飞机（5）-画布清空解决飞机重影、发射子弹
Python入门-Python项目实战-单机游戏开发-打飞机（6）-敌机绘制及移动
Python入门-Python项目实战-单机游戏开发-打飞机（7）-重构子弹类，自动发射子弹、改变子弹发射的频率
Python入门-Python项目实战-单机游戏开发-打飞机（8）-项目目的说明和技术总结
Python入门-Python项目实战-单机游戏开发-打飞机（9）-面向对象开发创建飞机类、显示不同类型的飞机
Python入门-Python项目实战-单机游戏开发-打飞机（10）-面向对象开发创建子弹类（2）
Python入门-Python项目实战-单机游戏开发-打飞机（11）-面向对象开发调整敌机子弹位置
Python入门-Python项目实战-单机游戏开发-打飞机（12）-面向对象开发匹配敌机并让敌机自动发射子弹
Python入门-Python项目实战-单机游戏开发-打飞机（13）-面向对象开发绘制玩家飞机、监听事件实现发射子弹

阶段十大数据更新资料

展开

第一章就业课(2.0)-impala

1-1 IMPALA

1、impala的基本介绍
2、impala的架构介绍
3、impala软件的下载以及linux磁盘的挂载
4、linux磁盘的挂载
5、linxu的磁盘挂载2以及压缩文件的上传并解压
6、yum源制作过程
7、impala的安装以及配置过程
8、impala的shell交互窗口使用
9、impala的外部以及内部shell参数
10、impala的基本查询语法
11、impala当中的数据加载的四种方式
12、通过java代码来执行impala的查询操作

第二章就业课(2.0)-HUE

2-1 HUE

13、hue的下载以及安装配置
14、hue与hdfs以及与yarn集群的整合
15、hue与hive的整合
16、hue与impala以及与mysql的整合
17、hadoop第十天今日课程总结

第三章就业课(2.0)-oozie

3-1 OOZIE

1、hadoop11天上传课程内容回顾以及今日课程内容大纲
2、oozie介绍以及oozie的安装1
3、oozie的安装步骤2
4、通过oozie执行shell脚本
5、通过oozie执行hive的任务
6、通过oozie执行mapreduce的任务以及oozie执行sqoop的任务的解决思路
7、oozie当中的job任务的串联
8、oozie当中的定时任务的执行
9、oozie与hue的整合以及整合之后执行MR的任务
10、伪分布式环境转换为HA集群环境
11、hadoop的federation联邦机制（了解一下）
12、cm环境搭建的基础环境准备
13、clouderaManager的服务搭建
14、clouderaManager服务的安装3
15、hadoop11天今日课程总结

第四章就业课(2.0)-storm 项目开发

4-1 storm日志告警

1、日志监控告警业务需求逻辑
2、日志监控告警系统项目框架准备
3、日志监控告警系统代码完善
4、项目打包集群运行
5、storm第二天今日课程总结

4-2 storm路由器项目开发

1、storm第三天上次课程内容回顾
2、网络路由器项目背景
3、项目数据处理流程
4、网络数据类型介绍
5、数据的处理准备
6、数据的处理过程代码开发
7、任务打包集群运行-报错
8、集群监控软件ganglia的安装
9、ganglia集群监控软件的使用查看

阶段一 基础增强