在线客服
扫描二维码
下载博学谷APP扫描二维码
关注博学谷微信公众号
数据仓库是面向主题的、集成的、不可更新的、随时间的变化而不断变化的,这些特点决定了数据仓库的系统设计不能采用同开发传统的OLTP数据库一样的设计方法。数据仓库的设计大体上可以分为以下几个步骤:概念模型设计、技术准备工作、逻辑模型设计、物理模型设计、数据仓库生成、数据仓库运行与维护。下面我们来看看Hive数仓开发的基本流程。
1.从业务系统获取数据
Sqoop 导入数据库的数据:spoop 可以在 Hive 与传统的数据库间进行数据的传递,可以将一个关系型数据库中的数据导进到 Hadoop 的HDFS中,也可以将 HDFS 的数据导进到关系型数据库中。
Flume 采集文本数据:Flume 可以将各类型的文件进行采集,存放入 hdfs中。
Ftp 文件服务器:从文件服务器上下载分析所需的源数据(增量数据、全量数据)。
2.数据存储
数据仓库分层 ods 层、dw 层、da 层:
源数据层 ODS :直接引用外围的数据 没有统一格式化的 不会直接应用使用不利于分析。
数据仓库层 DW :来自于 ODS 要经过 ETL 的过程 格式统一 数据规整 干净清洁。
数据应用层 DA :要去用 DW 层数据真正的数据使用者。
数据集市:也叫数据市场,数据集市就是满足特定的部门或者用户的需求,按照多维的方式进行存储,包括定义维度、需要计算的指标、维度的层次等,生成面向决策分析需求的数据立方体。
3.配置调度系统
4.导出数据&展示
以上就是小编整理的有关大数据面试题之Hive数仓开发的基本流程,都是干货,小伙伴赶紧掌握吧!
— 申请免费试学名额 —
在职想转行提升,担心学不会?根据个人情况规划学习路线,闯关式自适应学习模式保证学习效果
讲师一对一辅导,在线答疑解惑,指导就业!
相关推荐 更多
大数据Hbase面试宝典(下)
在大数据Hbase的面试中只有做好充足的准备,才能以不变应万变。下面和大家分享小编最后整理的大数据Hbase面试宝典最终章。
6974
2019-07-04 18:28:51
大数据面试题:flume 与 kafka 的整合
当你面试的时候突然被问到:flume 与 kafka 的整合。你会怎么回答?其实面试官提问的时候主要是想考察你对storm的理解,下面小编带大家一起分析这个问题的解答方式!
8525
2019-07-04 19:05:09
大数据kafka常见面试题整理附答案
kafka一直都是大数据面试题的必考点。因此,小编整理了有关kafka知识点的大数据面试题,主要针对kafka的定义、与传统消息系统的区别、kafka集群的安装与搭建三大问题,并附上了参考答案。需要梳理kafka知识点的同学可以看看。
10016
2019-08-06 16:23:49
大数据工程师常见面试题 编程模型
在大数据工程师的面试过程中,编程模型的相关问题常常是绕不过去的一个考点。同时编程模型也是大数据工程师工作中非常重要的知识技能。下面就来讲讲Spout、Bolt、并行度、消息不丢失这几方面的内容,感兴趣的小伙伴就赶紧接着看下去吧!
5432
2019-10-14 18:46:44
大数据疑难解答 Hbase内部是什么机制?
众所周知,HBase是一个非关系型数据库,它的特征是分布式、列式存储、开源和版本化。无论是在大数据的面试中,还是大数据的工作中,这都是一个经常会出现的难题,然而却很少人能够说清Hbase内部机制。今天我们就花些时间聊聊Hbase内部是什么机制。
6658
2019-10-17 18:13:28