在线客服
扫描二维码
下载博学谷APP
扫描二维码
关注博学谷微信公众号
意见反馈

原创大数据疑难解答 Hbase内部是什么机制？

发布时间：2019-10-17 18:13:28 浏览 6910 来源：博学谷作者：照照

众所周知，HBase是一个非关系型数据库，它的特征是分布式、列式存储、开源和版本化。无论是在大数据的面试中，还是大数据的工作中，这都是一个经常会出现的难题，然而却很少人能够说清Hbase内部机制。今天我们就花些时间聊聊Hbase内部是什么机制。

Hbase内部机制

在 HBase 中无论是增加新行还是修改已有的行，其内部流程都是相同的。HBase 接到命令后存下变化信息，或者写入失败抛出异常。默认情况下，执行写入时会写到两个地方：预写式日志（write-ahead log，也称 HLog）和 MemStore。HBase 的默认方式是把写入动作记录在这两个地方，以保证数据持久化。只有当这两个地方的变化信息都写入并确认后，才认为写动作完成。

MemStore 是内存里的写入缓冲区，HBase 中数据在永久写入硬盘之前在这里累积。当MemStore 填满后，其中的数据会刷写到硬盘，生成一个HFile。HFile 是HBase 使用的底层存储格式。HFile 对应于列族，一个列族可以有多个 HFile，但一个 HFile 不能存储多个列族的数据。在集群的每个节点上，每个列族有一个MemStore。

大型分布式系统中硬件故障很常见，HBase 也不例外。设想一下，如果MemStore 还没有刷写，服务器就崩溃了，内存中没有写入硬盘的数据就会丢失。HBase 的应对办法是在写动作完成之前先写入WAL。HBase 集群中每台服务器维护一个 WAL 来记录发生的变化。WAL 是底层文件系统上的一个文件。直到WAL 新记录成功写入后，写动作才被认为成功完成。这可以保证 HBase 和支撑它的文件系统满足持久性。大多数情况下，HBase 使用 Hadoop 分布式文件系统（HDFS）来作为底层文件系统。

如果 HBase 服务器宕机，没有从 MemStore 里刷写到 HFile 的数据将可以通过回放 WAL 来恢复。你不需要手工执行。Hbase 的内部机制中有恢复流程部分来处理。每台 HBase 服务器有一个 WAL，这台服务器上的所有表（和它们的列族）共享这个 WAL。
你可能想到，写入时跳过 WAL 应该会提升写性能。但我们不建议禁用 WAL，除非你愿意在出问题时丢失数据。如果你想测试一下，如下代码可以禁用WAL：注意：不写入 WAL 会在 RegionServer 故障时增加丢失数据的风险。关闭 WAL，出现故障时 HBase 可能无法恢复数据，没有刷写到硬盘的所有写入数据都会丢失。

以上就是关于Hbase内部机制的疑难解答。大家要是想深入学习大数据的更多内容，可以上博学谷视频资源平台，看看有没有想要学习的视频课程，相信一定不会让大家失望。

大数据技术大数据面试专业技能

— 申请免费试学名额 —

在职想转行提升，担心学不会？根据个人情况规划学习路线，闯关式自适应学习模式保证学习效果
讲师一对一辅导，在线答疑解惑，指导就业！

上一篇：大数据的分析软件工具有哪些？都有什么用？下一篇：大数据开发需要学什么编程语言？

相关推荐 更多

Namenode HA 知识点讲解

今天，小编准备了今天，小编准备了Namenode HA 知识点讲解，现在分享给大家。

7090

2019-07-04 16:13:08

大数据面试
什么是大数据分析？大数据分析概念

大数据分析指对规模巨大的数据进行分析。大数据特点数据量大、速度快、类型多、价值、真实性。随着大数据的发展，大数据分析应运而生。数据分析让人们对数据产生更加优质的诠释，而具有预知意义的分析可以让分析员根据可视化分析和数据分析后的结果做出一些预测性的推断。

5766

2020-04-27 15:15:39

大数据技术数据分析
常用的数据分析方法及案例讲解

常用的数据分析方法有描述统计、信度分析、相关分析、回归分析、聚类分析等。本文将结合实际案例，为大家一一讲解这些数据分析的方法。如果你想了解如何做数据分析，就接着看下去吧~

5508

2020-08-13 16:38:58

大数据技术大数据分析
为什么大数据技术那么火？

大数据技术的概念早在2008年被Google提出。在我国2012年提出《大数据研究和发展计划》，从此我国的开放、共享和只能的大数据时代正式开启。随着一线互联网企业在大数据领域的成熟应用，以及国内政策的支持。2016年，云计算大数据技术再次成为人们所追捧的热门技术，与此同时国内大数据人才培养体系逐渐完善，为大数据的普及应用提供源源不断的人才支撑。

4269

2020-09-15 17:36:12

大数据岗位大数据技术就业前景
2021年大数据发展趋势及动态

大数据已经走单纯的技术架构和技术体系，走向了社会基础设施。2020年“新基建”就将“大数据中心”定义为数字新基础设施的重要建设内容。基于隐私计算的数据流通技术成为实现数据联合计算的主要思路。隐私计算在保护数据本身不对外泄露的前提下实现了数据融合，为安全合规的数据流通带来了可能。

4998

2021-01-19 15:12:03

大数据技术数据挖掘