在线客服
扫描二维码
下载博学谷APP扫描二维码
关注博学谷微信公众号
应广大同学的需求,本文继续整理了大数据HBase面试问题,希望大家阅读本篇文章以后有所收获,能够对大数据技术的理解更加深入和全面。
一、 解释下 hbase 实时查询的原理
实时查询,可以认为是从内存中查询,一般响应时间在 1 秒内。HBase 的机制是数据先写入到内存中,当数据量达到一定的量(如 128M),再写入磁盘中, 在内存中,是不进行数据的更新或合并操作的,只增加数据,这使得用户的写操作只要进入内存中就可以立即返回,保证了 HBase I/O 的高性能。
二、描述 Hbase 的 rowKey 的设计原则
问题导读:联系 region 和 rowkey 关系说明,设计可参考以下三个原则.
1、 rowkey 长度原则
rowkey 是一个二进制码流,可以是任意字符串,最大长度 64kb,实际应用中一般为 10-100bytes,以 byte[]形式保存,一般设计成定长。建议越短越好,不要超过 16 个字节, 原因如下:
数据的持久化文件 HFile 中是按照 KeyValue 存储的,如果 rowkey 过长会极大影响 HFile 的存储效率 MemStore 将缓存部分数据到内存,如果 rowkey 字段过长,内存的有效利用率就会降低,系统不能缓存更多的数据,这样会降低检索效率
2、 rowkey 散列原则
如果 rowkey 按照时间戳的方式递增,不要将时间放在二进制码的前面,建议将 rowkey 的高位作为散列字段,由程序随机生成,低位放时间字段,这样将提高数据均衡分布在每个 RegionServer,以实现负载均衡的几率。如果没有散列字段,首字段直接是时间信息,所有的数据都会集中在一个 RegionServer 上,这样在数据检索的时候负载会集中在个别的 RegionServer 上,造成热点问题,会降低查询效率。
3、 rowkey 唯一原则
必须在设计上保证其唯一性,rowkey 是按照字典顺序排序存储的,因此, 设计 rowkey 的时候,要充分利用这个排序的特点,将经常读取的数据存储到一块,将最近可能会被访问的数据放到一块。
三、描述 Hbase 中 scan 和 get 的功能以及实现的异同
1、按指 定 RowKey 获 取 唯 一 一 条 记 录 , get 方法( org.apache.hadoop.hbase.client.Get ) Get的方法处理分两种 : 设置了ClosestRowBefore和没有设置的 rowlock 主要是用来保证行的事务性,即每个get 是以一个 row 来标记的.一个 row 中可以有很多 family 和 column。
2.按指定的条件获取一批记录,scan 方法(org.apache.Hadoop.hbase.client.Scan)实现条件查询功能使用的就是 scan 方式.
1)scan 可以通过 setCaching 与 setBatch 方法提高速度(以空间换时间);
2)scan 可以通过 setStartRow 与 setEndRow 来限定范围([start,end]start? 是闭区间,end 是开区间)。范围越小,性能越高;
3)scan 可以通过 setFilter 方法添加过滤器,这也是分页、多条件查询的基础。 3.全表扫描,即直接扫描整张表中所有行记录。
四、请详细描述 Hbase 中一个 Cell 的结构
HBase 中通过 row 和 columns 确定的为一个存贮单元称为 cell。Cell:由{row key, column(=<family> + <label>), version}是唯一确定的单元cell 中的数据是没有类型的,全部是字节码形式存贮。
还没梳理过大数据Hbase面试题的同学赶紧多看几遍吧,以上都小编的干货分享,有需要的同学可以收藏起来。
— 申请免费试学名额 —
在职想转行提升,担心学不会?根据个人情况规划学习路线,闯关式自适应学习模式保证学习效果
讲师一对一辅导,在线答疑解惑,指导就业!
相关推荐 更多
大数据Hbase面试宝典(下)
在大数据Hbase的面试中只有做好充足的准备,才能以不变应万变。下面和大家分享小编最后整理的大数据Hbase面试宝典最终章。
6844
2019-07-04 18:28:51
大数据面试题 Hive数仓开发的基本流程
数据仓库是面向主题的、集成的、不可更新的、随时间的变化而不断变化的,这些特点决定了数据仓库的系统设计不能采用同开发传统的OLTP数据库一样的设计方法。数据仓库的设计大体上可以分为以下几个步骤:概念模型设计、技术准备工作、逻辑模型设计、物理模型设计、数据仓库生成、数据仓库运行与维护。下面我们来看看Hive数仓开发的基本流程。
10213
2019-07-15 16:07:11
大数据面试题 Spark知识点汇总
Spark是一个实现快速通用的集群计算平台,它是基于内存的迭代计算框架,适用于需要多次操作特定数据集的应用场合。在大数据库架构中常常需要使用Spark,Spark的知识点一直也是大数据面试题的重点,本文整理了Spark知识点汇总,现在就和大家一起梳理下吧!
7287
2019-07-25 15:33:51
大数据Hbase经典面试题汇总
本文是根据市场需求和许多程序员面试的反馈而整理出来的,里面汇总了近些年来有关Hbase知识点的大数据经典面试题。希望本文能帮助求职者梳理Hbase知识点,让求职者在面试过程中胸有成竹。
8746
2019-08-05 19:10:38
大数据kafka常见面试题整理附答案
kafka一直都是大数据面试题的必考点。因此,小编整理了有关kafka知识点的大数据面试题,主要针对kafka的定义、与传统消息系统的区别、kafka集群的安装与搭建三大问题,并附上了参考答案。需要梳理kafka知识点的同学可以看看。
9836
2019-08-06 16:23:49