在线客服
扫描二维码
下载博学谷APP扫描二维码
关注博学谷微信公众号
分析Nginx访问日志需要学什么?需要掌握Spark SQL核心知识,分析Nginx访问日志掌握SparkSQL数据分析能力,SparkSQL调优方式及其核心思想。通过思维导图的方式对学习课程所涉及的知识。
1、Spark SQL介绍
Spark SQL在Spark生态圈的地位和作用,让大家对Spark SQL 的总体知识框架有个大概的轮廓。
2、认识Spark SQL
Spark SQL运行原理,DataFrame、DataSet和RDD的相互转化和使用场景,并讲解Parquet的使用。
2.1 Spark SQL和Hive
2.2 Spark SQL运行原理
2.3 DataFrame、DataSet和RDD的联系
2.4 Parquet列式存储
3、 DataFrame/DataSet常用操作
DataFrame的过滤,分组,排序操作和列值的增删改,以及对Join的优化。
3.1 一般操作:查找和过滤
3.2 聚合操作:groupBy和agg
3.3 单表操作:列的增删改与空值处理
3.4 多表操作:join
4、自定义函数和开窗函数
讲解自定义函数的使用,以及开窗函数在分组求TopN中的应用。
4.1 自定义函数:UDF
4.2 自定义聚合函数:UDAF
4.3 开窗函数:row_number()
5、Nginx访问日志分析完整实战
使用Spark SQL分析Nginx访问日志的项目。包括了数据清洗,存储,监控和优化。
5.1 项目场景介绍及分析
5.2 第一次数据清洗:格式化原始日志数据
5.3 第二次数据清洗:解析数据并按天以Parquet格式存储
5.4 将分析结果批量写入MySql
5.5 性能监控及优化
日志服务查询分析能力是完整SQL92,支持各种数理统计与计算。目前,日志服务支持保存查询语句为快速查询,对查询设置触发周期(间隔),并对执行结果设定判断条件并且告警。
— 申请免费试学名额 —
在职想转行提升,担心学不会?根据个人情况规划学习路线,闯关式自适应学习模式保证学习效果
讲师一对一辅导,在线答疑解惑,指导就业!
相关推荐 更多
数据挖掘、数据分析以及大数据之间的区别有哪些?
进入大数据时代,和数据相关的名词都被人们津津乐道。那数据挖掘、数据分析以及大数据之间有哪些区别呢?数据挖掘是发现信息以及收集数据的过程;数据分析则是将现有数据进行归纳以及分析得出相应结论的过程。而大数据则更加关注数据本身,重要表现就是数据量大,数据的多样性等等。
12493
2019-06-20 18:11:53
大数据分析培训课程靠谱吗?主要课程内容是什么?
大数据分析是目前国内各行各业都非常关注的一个岗位,通过对大数据的挖掘分析,不仅仅能为企业提供有商业价值的重大决策,同时也可以优化企业运营生产过程中的过度消耗以及资源匹配不均等等现象。因此大量的技术人员开始进入大数据分析的相关领域学习,那现在市面上常见的大数据分析培训课程靠谱吗?大数据分析培训课程主要学习哪些知识?
7335
2019-08-23 18:33:37
2020年云计算和容器的发展趋势如何?
2020年,混合云将解决企业现存问题,托管服务和供应商锁定的争论也愈演愈烈。越来越多的应用程序将分别部署在两个或更多的公共云中。中小企业将采用经常性收入业务模型。公共云的采用将增加,并使企业更容易利用其他新技术。
5613
2020-02-05 15:08:00
数据科学与机器学习的区别是什么?
数据科学与机器学习的区别:机器学习是人工智能的一个分支,而数据科学是数据清理、准备和分析的学科。人们需要了解每种技术的工作原理,以及它们是如何一起工作的。数据科学是一种实践领域,而机器学习是一组工具和方法论。
5642
2020-05-13 15:36:30
HDFS基本原理总结
今天继续梳理的知识点是HDFS的基本原理,主要内容包括NameNode概述、DataNode概述、HDFS的工作机制(HDFS写数据流程和HDFS读数据流程),总之全文都是总结的学习干货,希望对于相信大数据的朋友能够有一些帮助,下面我们一起来学习并理解以下的内容吧!
4657
2020-06-15 10:48:02