在线客服
扫描二维码
下载博学谷APP
扫描二维码
关注博学谷微信公众号
意见反馈

原创大数据技术分享：Hive的静态分区与动态分区

发布时间：2019-06-21 18:18:25 浏览 11391 来源：博学谷资讯作者：枫调

　　Hive是机遇Hadoop的一个数据仓库工具，它的学习成本低，可以通过类SQL语句快速实现简单的MAPReduce统计，十分适合数据仓库的统计。在Hive学习过程中必定会接触到分区，这是Hive存放数据的一种形式。查询数据时使用分区列进行过滤，只需根据列值直接扫描对应目录下的数据，不扫描其他不关心的分区，快速定位，提高查询效率。分区分为静态分区和动态分区两种形式。

大数据技术分享：Hive的静态分区与动态分区

　　静态分区

　　若分区的值是确定的，那么称为静态分区。新增分区或者是加载分区数据时，已经指定分区名。
　　create table if not exists day_part1(
　　uid int,
　　uname string
　　)
　　partitioned by(year int,month int)
　　row format delimited fields terminated by '\t';
　　##加载数据指定分区
　　load data local inpath '/root/Desktop/student.txt' into table day_part1 partition(year=2017,month=04);
　　##新增分区指定分区名
　　alter table day_part1 add partition(year=2017,month=1) partition(year=2016,month=12);

　　动态分区

　　分区的值是非确定的，由输入数据来确定
　　1、动态分区的相关属性：
　　hive.exec.dynamic.partition=true :是否允许动态分区
　　hive.exec.dynamic.partition.mode=strict ：分区模式设置
　　strict：最少需要有一个是静态分区
　　nostrict：可以全部是动态分区
　　hive.exec.max.dynamic.partitions=1000 ：允许动态分区的最大数量
　　hive.exec.max.dynamic.partitions.pernode =100 ：单个节点上的mapper/reducer允许创建的最大分区
　　2、动态分区的操作
　　##创建临时表
　　create table if not exists tmp
　　(uid int,
　　commentid bigint,
　　recommentid bigint,
　　year int,
　　month int,
　　day int)
　　row format delimited fields terminated by '\t';
　　##加载数据
　　load data local inpath '/root/Desktop/comm' into table tmp;
　　##创建动态分区表
　　create table if not exists dyp1
　　(uid int,
　　commentid bigint,
　　recommentid bigint)
　　partitioned by(year int,month int,day int)
　　row format delimited fields terminated by '\t';
　　##严格模式
　　insert into table dyp1 partition(year=2016,month,day)
　　select uid,commentid,recommentid,month,day from tmp;
　　##非严格模式
　　##设置非严格模式动态分区
　　set hive.exec.dynamic.partition.mode=nostrict;
　　##创建动态分区表
　　create table if not exists dyp2
　　(uid int,
　　commentid bigint,
　　recommentid bigint)
　　partitioned by(year int,month int,day int)
　　row format delimited fields terminated by '\t';
　　##为非严格模式动态分区加载数据
　　insert into table dyp2 partition(year,month,day)
　　select uid,commentid,recommentid,year,month,day from tmp;

　　分区注意细节

　　1、尽量不要用动态分区，因为动态分区的时候，将会为每一个分区分配reducer数量，当分区数量多的时候，reducer数量将会增加，对服务器是一种灾难。
　　2、动态分区和静态分区的区别，静态分区不管有没有数据都将会创建该分区，动态分区是有结果集将创建，否则不创建。
　　3、hive动态分区的严格模式和hive提供的hive.mapred.mode的严格模式。
　　hive提供我们一个严格模式：为了阻止用户不小心提交恶意hql
　　hive.mapred.mode=nostrict : strict
　　如果该模式值为strict，将会阻止以下三种查询：
　　(1)、对分区表查询，where中过滤字段不是分区字段。
　　(2)、笛卡尔积join查询，join查询语句，不带on条件或者where条件。
　　(3)、对order by查询，有order by的查询不带limit语句。

　　以上就是和大家分享大数据技术分享：Hive的静态分区与动态分区。在大数据学习过程中需要掌握多种应用技术，包括Linux、Zookeeper、Hadoop、Redis、HDFS、MapReduce、Hive、lmpala、Hue、Oozie、Storm、Kafka、Spark、Scala、SparkSQL、Hbase、Flink、机器学习等核心技能。充分掌握才能快速实现大数据就业的目标。想学习大数据技术，可以通过博学谷大数据课程。因为大数据是在Java技术的基础上实现的，所以学习大数据技术之前最好具备java基础。文章部分内容整合自网络，仅供参考阅读。

大数据技术

— 申请免费试学名额 —

在职想转行提升，担心学不会？根据个人情况规划学习路线，闯关式自适应学习模式保证学习效果
讲师一对一辅导，在线答疑解惑，指导就业！

上一篇：数据挖掘、数据分析以及大数据之间的区别有哪些？下一篇：大数据思维到底是什么？

相关推荐 更多

哪里有比较好的大数据分析培训？

目前大部分关于大数据方向的培训课程都是关于大数据技术开发，主要培养与大数据挖掘、大数据爬虫、大数据存储以及算法开发工程师，相对来说说岗位偏向于开发技术。对于不想从事技术开发岗位的同学，关注更多的则是大数据分析培训课程。那目前国内哪里有比较好的大数据分析培训呢？

6138

2019-09-03 18:47:35

大数据技术大数据分析数据分析工具
学数据挖掘技术能做哪些工作？可以从事哪些行业？

学数据挖掘技术能做哪些工作？可以从事哪些行业？随着大数据时代的来临，大数据早已渗透我们生活和工作的方方面面。尤其是数据挖掘更是被各行各业广泛应用，像互联网、电商、金融、医疗等等行业对掌握数据挖掘技术的人才更是有着相当优渥的报酬。至于数据挖掘的相关岗位更是选择多多，下面来具体了解一下吧！

9647

2019-10-15 10:29:58

大数据岗位大数据技术数据挖掘
为什么要学Kylin开发教程？学了有什么用？

为什么要学Kylin开发教程？学了有什么用？首先我们要明白，Kylin就是为了解决海量数据的数据分析需求而存在的。如今正是大数据的时代，因而想要完全掌握大数据技术，学习Kylin开发就显得尤为重要。下面小编将为大家详细介绍学习Kylin开发教程的原因和相关课程，感兴趣的同学一起看下去吧！

5713

2019-11-12 20:20:54

大数据课程大数据技术课程大纲
什么是数据科学异常值检测原理？

什么是数据科学异常值检测原理？异常值的检测方法有基于统计的方法，基于聚类的方法，以及一些专门检测异常值的方法等。使用pandas，可以直接使用describe()来观察数据的统计性描述，或者简单使用散点图也能很清晰的观察到异常值的存在。

7417

2020-03-20 16:21:07

大数据技术大数据开发
大数据在零售供应链管理方面的应用

零售商可通过多种方式使用大量信息来改善其零售供应链，分析解决方案将供应商的实际绩效与其关键绩效指标进行比较，帮助供应商在按时交货、提升客户满意度等。

4283

2020-12-31 10:38:03

大数据技术应用场景