在线客服
扫描二维码
下载博学谷APP
扫描二维码
关注博学谷微信公众号
意见反馈

原创大数据Hbase面试宝典（中）

发布时间：2019-07-04 13:58:56 浏览 8796 来源：博学谷资讯作者：照照

应广大同学的需求，本文继续整理了大数据HBase面试问题，希望大家阅读本篇文章以后有所收获，能够对大数据技术的理解更加深入和全面。

大数据<a href = 'https://www.boxuegu.com/news/480.html' target='_blank' style='color: #466de2;font-size: 14px'>Hbase</a>面试宝典（中）

一、解释下 hbase 实时查询的原理

实时查询，可以认为是从内存中查询，一般响应时间在 1 秒内。HBase 的机制是数据先写入到内存中，当数据量达到一定的量（如 128M），再写入磁盘中，在内存中，是不进行数据的更新或合并操作的，只增加数据，这使得用户的写操作只要进入内存中就可以立即返回，保证了 HBase I/O 的高性能。

二、描述 Hbase 的 rowKey 的设计原则

问题导读：联系 region 和 rowkey 关系说明，设计可参考以下三个原则.

1、 rowkey 长度原则
rowkey 是一个二进制码流，可以是任意字符串，最大长度 64kb，实际应用中一般为 10-100bytes，以 byte[]形式保存，一般设计成定长。建议越短越好，不要超过 16 个字节，原因如下：

数据的持久化文件 HFile 中是按照 KeyValue 存储的，如果 rowkey 过长会极大影响 HFile 的存储效率 MemStore 将缓存部分数据到内存，如果 rowkey 字段过长，内存的有效利用率就会降低，系统不能缓存更多的数据，这样会降低检索效率

2、 rowkey 散列原则

如果 rowkey 按照时间戳的方式递增，不要将时间放在二进制码的前面，建议将 rowkey 的高位作为散列字段，由程序随机生成，低位放时间字段，这样将提高数据均衡分布在每个 RegionServer，以实现负载均衡的几率。如果没有散列字段，首字段直接是时间信息，所有的数据都会集中在一个 RegionServer 上，这样在数据检索的时候负载会集中在个别的 RegionServer 上，造成热点问题，会降低查询效率。

3、 rowkey 唯一原则

必须在设计上保证其唯一性，rowkey 是按照字典顺序排序存储的，因此，设计 rowkey 的时候，要充分利用这个排序的特点，将经常读取的数据存储到一块，将最近可能会被访问的数据放到一块。

三、描述 Hbase 中 scan 和 get 的功能以及实现的异同

1、按指定 RowKey 获取唯一一条记录， get 方法（ org.apache.hadoop.hbase.client.Get ） Get的方法处理分两种：设置了ClosestRowBefore和没有设置的 rowlock 主要是用来保证行的事务性，即每个get 是以一个 row 来标记的.一个 row 中可以有很多 family 和 column。

2.按指定的条件获取一批记录，scan 方法(org.apache.Hadoop.hbase.client.Scan)实现条件查询功能使用的就是 scan 方式.

1)scan 可以通过 setCaching 与 setBatch 方法提高速度(以空间换时间)；

2)scan 可以通过 setStartRow 与 setEndRow 来限定范围([start，end]start? 是闭区间，end 是开区间)。范围越小，性能越高；

3)scan 可以通过 setFilter 方法添加过滤器，这也是分页、多条件查询的基础。 3.全表扫描，即直接扫描整张表中所有行记录。

四、请详细描述 Hbase 中一个 Cell 的结构

HBase 中通过 row 和 columns 确定的为一个存贮单元称为 cell。Cell：由{row key， column(=<family> + <label>)， version}是唯一确定的单元cell 中的数据是没有类型的，全部是字节码形式存贮。

还没梳理过大数据Hbase面试题的同学赶紧多看几遍吧，以上都小编的干货分享，有需要的同学可以收藏起来。

大数据面试

— 申请免费试学名额 —

在职想转行提升，担心学不会？根据个人情况规划学习路线，闯关式自适应学习模式保证学习效果
讲师一对一辅导，在线答疑解惑，指导就业！

上一篇：大数据Hbase面试宝典（上）下一篇： Namenode HA 知识点讲解

相关推荐 更多

大数据Hadoop中HDFS 存储的机制？

HDFS即Hadoop分布式文件系统。它是一个高度容错性的系统，适合部署在廉价的机器上。HDFS能提供高吞吐量的数据访问，非常适合大规模数据集上的应用。那大数据中HDFS 存储的机制怎样的呢？

11358

2019-08-14 10:19:54

大数据开发大数据面试专业技能
大数据面试题 Hive数仓开发的基本流程

数据仓库是面向主题的、集成的、不可更新的、随时间的变化而不断变化的，这些特点决定了数据仓库的系统设计不能采用同开发传统的OLTP数据库一样的设计方法。数据仓库的设计大体上可以分为以下几个步骤：概念模型设计、技术准备工作、逻辑模型设计、物理模型设计、数据仓库生成、数据仓库运行与维护。下面我们来看看Hive数仓开发的基本流程。

10768

2019-07-15 16:07:11

大数据面试
大数据进阶面试题Storm开源软件

在大数据求职者眼中，Storm肯定是一款高效的开源软件，它主要用于解决数据的实时计算和实时的处理等方面的问题。同时Storm也是大数据进阶面试题的重难点，因此小编整理了一些近些年来比较经典常见有关Storm的面试题,希望对大家有用。

6622

2019-08-15 16:41:39

大数据面试软件工具
大数据面试要注意哪些方面？大数据面试准备三大攻略

大数据面试要注意哪些方面？一般来说，求职者要做好自我介绍、面试提问和专业考题三大方面的准备。下面是小编专门为大数据求职者整理的面试攻略，希望对大家找工作有所帮助。

7006

2019-09-08 19:36:29

大数据面试专业技能
大数据面试题之分布式资源调度框架Yarn

Yarn作为一个资源管理、任务调度的框架，其重要性不言而喻。尤其是在近些年的大数据面试中，更是面试题的重点知识之一。为了大家在面试的时候，能够准备的更加充分，小编整理了一份有关分布式资源调度框架Yarn的大数据面试题,内容包括Yarn的架构、工作流程、调度器Scheduler。

7567

2019-09-12 11:00:53

大数据框架大数据面试