在线客服
扫描二维码
下载博学谷APP扫描二维码
关注博学谷微信公众号
众所周知,HBase是一个非关系型数据库,它的特征是分布式、列式存储、开源和版本化。无论是在大数据的面试中,还是大数据的工作中,这都是一个经常会出现的难题,然而却很少人能够说清Hbase内部机制。今天我们就花些时间聊聊Hbase内部是什么机制。
在 HBase 中无论是增加新行还是修改已有的行,其内部流程都是相同的。HBase 接到命令后存下变化信息,或者写入失败抛出异常。默认情况下,执行写入时会写到两个地方:预写式日志(write-ahead log,也称 HLog)和 MemStore。HBase 的默认方式是把写入动作记录在这两个地方,以保证数据持久化。只有当这两个地方的变化信息都写入并确认后,才认为写动作完成。
MemStore 是内存里的写入缓冲区,HBase 中数据在永久写入硬盘之前在这里累积。当MemStore 填满后,其中的数据会刷写到硬盘,生成一个HFile。HFile 是HBase 使用的底层存储格式。HFile 对应于列族,一个列族可以有多个 HFile,但一个 HFile 不能存储多个列族的数据。在集群的每个节点上,每个列族有一个MemStore。
大型分布式系统中硬件故障很常见,HBase 也不例外。设想一下,如果MemStore 还没有刷写,服务器就崩溃了,内存中没有写入硬盘的数据就会丢失。HBase 的应对办法是在写动作完成之前先写入WAL。HBase 集群中每台服务器维护一个 WAL 来记录发生的变化。WAL 是底层文件系统上的一个文件。直到WAL 新记录成功写入后,写动作才被认为成功完成。这可以保证 HBase 和支撑它的文件系统满足持久性。大多数情况下,HBase 使用 Hadoop 分布式文件系统(HDFS)来作为底层文件系统。
如果 HBase 服务器宕机,没有从 MemStore 里刷写到 HFile 的数据将可以通过回放 WAL 来恢复。你不需要手工执行。Hbase 的内部机制中有恢复流程部分来处理。每台 HBase 服务器有一个 WAL,这台服务器上的所有表(和它们的列族)共享这个 WAL。
你可能想到,写入时跳过 WAL 应该会提升写性能。但我们不建议禁用 WAL, 除非你愿意在出问题时丢失数据。如果你想测试一下,如下代码可以禁用WAL: 注意:不写入 WAL 会在 RegionServer 故障时增加丢失数据的风险。关闭 WAL, 出现故障时 HBase 可能无法恢复数据,没有刷写到硬盘的所有写入数据都会丢失。
以上就是关于Hbase内部机制的疑难解答。大家要是想深入学习大数据的更多内容,可以上博学谷视频资源平台,看看有没有想要学习的视频课程,相信一定不会让大家失望。
— 申请免费试学名额 —
在职想转行提升,担心学不会?根据个人情况规划学习路线,闯关式自适应学习模式保证学习效果
讲师一对一辅导,在线答疑解惑,指导就业!
相关推荐 更多
大数据核心技术:Hadoop与spark
大数据学习需要掌握很多技术知识点,包括Linux、Zookeeper、Hadoop、Redis、HDFS、MapReduce、Hive、lmpala、Hue、Oozie、Storm、Kafka、Spark、Scala、SparkSQL、Hbase、Flink、机器学习等。今天主要和大家分享一下Hadoop和spark技术。
7181
2019-06-26 17:59:29
了解前沿技术:大数据经典应用案例分享
目前国内大部分代行的企业已经将大数据充分的运用到原来的业务之中,对于哪些目前还在互联网转型甚至没有实现互联网+转型的企业来说,能否尽快布局大数据成为企业实现快速发展的核心问题。因此我们需要跟多的了解大数据到底都可以做什么。本文为大家分享了部分大数据应用成功案例。对于企业或者开发者都可以从中找到与自己实际工作业务相关的拓展思路。
8764
2019-07-22 16:28:07
Hive数据仓库层级划分介绍
本文就Hive数据仓库层级划分进行详细介绍,全文大概分为数据仓库的四个操作和四逻辑架构层次两个部分。这些都是Hive数据仓库的基础知识,大家一定要掌握哦!
10874
2019-08-09 19:31:31
云计算是什么?云计算的通俗解释
云计算是什么?云计算是一种用户可以随意从可配置计算资源共享空间中获取所需资源的模型,这些资源一般是网络、服务器、存储、应用及服务。这样的解释可能对大众来说,依旧不太好理解。下面小编就用最通俗的解释,全面为大家科普云计算的概念。
8514
2019-10-12 10:57:02
2020年云计算和容器的发展趋势如何?
2020年,混合云将解决企业现存问题,托管服务和供应商锁定的争论也愈演愈烈。越来越多的应用程序将分别部署在两个或更多的公共云中。中小企业将采用经常性收入业务模型。公共云的采用将增加,并使企业更容易利用其他新技术。
5749
2020-02-05 15:08:00