在线客服
扫描二维码
下载博学谷APP扫描二维码
关注博学谷微信公众号
Sequence File格式是什么?如何使用?Hadoop可以存储多种文件格式。sequenceFile文件是Hadoop用来存储二进制形式的[Key,Value]对而设计的一种平面文件Flat File。可以把SequenceFile当做是一个容器,把所有的文件打包到SequenceFile类中可以高效的对小文件进行存储和处理。
SequenceFile文件并不按照其存储的Key进行排序存储,SequenceFile的内部类Writer提供了append功能。SequenceFile中的Key和Value可以是任意类型Writable或者是自定义Writable。
在存储结构上,SequenceFile主要由一个Header后跟多条Record组成,Header主要包含了Key classname,value classname,存储压缩算法,用户自定义元数据等信息,此外,还包含了一些同步标识,用于快速定位到记录的边界。
每条Record以键值对的方式进行存储,用来表示它的字符数组可以一次解析成:记录的长度、Key的长度、Key值和value值,并且Value值的结构取决于该记录是否被压缩。
HDFS文件存储格式介绍:
1、TEXTFILE
Hive数据表的默认格式,存储方式:行存储。可以使用Gzip压缩算法,但压缩后的文件不支持split。在反序列化过程中,必须逐个字符判断是不是分隔符和行结束符,因此反序列化开销会比SequenceFile高几十倍。
2、SEQUENCEFILE
压缩数据文件可以节省磁盘空间,但Hadoop中有些原生压缩文件的缺点之一就是不支持分割。支持分割的文件可以并行的有多个mapper程序处理大数据文件,大多数文件不支持可分割是因为这些文件只能从头开始读。Sequence File是可分割的文件格式,支持Hadoop的block级压缩。
Hadoop API提供的一种二进制文件,以key-value的形式序列化到文件中。存储方式:行存储。sequencefile支持三种压缩选择:NONE,RECORD,BLOCK。Record压缩率低,RECORD是默认选项,通常BLOCK会带来较RECORD更好的压缩性能。优势是文件和hadoop api中的MapFile是相互兼容的。
3、RCFILE
存储方式:数据按行分块,每块按列存储。结合了行存储和列存储的优点,RCFile 保证同一行的数据位于同一节点,因此元组重构的开销很低,像列存储一样,RCFile 能够利用列维度的数据压缩,并且能跳过不必要的列读取。
数据追加:RCFile不支持任意方式的数据写操作,仅提供一种追加接口,这是因为底层的 HDFS当前仅仅支持数据追加写文件尾部。
行组大小:行组变大有助于提高数据压缩的效率,但是可能会损害数据的读取性能,因为这样增加了 Lazy 解压性能的消耗。而且行组变大会占用更多的内存,这会影响并发执行的其他MR作业。考虑到存储空间和查询效率两个方面,Facebook 选择 4MB 作为默认的行组大小,当然也允许用户自行选择参数进行配置。
4、ORCFILE
存储方式:数据按行分块,每块按照列存储。压缩快,快速列存取。效率比rcfile高,是rcfile的改良版本。
结合项目中使用SequenceFile压缩率最低,查询速度一般。项目中存储小的二进制文件,用Sequence File这个格式。
— 申请免费试学名额 —
在职想转行提升,担心学不会?根据个人情况规划学习路线,闯关式自适应学习模式保证学习效果
讲师一对一辅导,在线答疑解惑,指导就业!
相关推荐 更多
大数据培训班跟不上怎么办?零基础可以学大数据吗?
在大数据浪潮的裹挟下,不断有学习者涌入大数据培训机构,因而这些学习者的能力也是参差不齐的。这样一来,不少初学者会有这样的疑问:大数据培训班跟不上怎么办?零基础可以学大数据吗?其实大数据的学习只要肯用心,不存在什么学习的门槛。如果零基础的同学跟不上学习进度,自身和培训班都有问题。下面来看看如何解决吧!
6023
2019-09-11 12:49:47
常见的数据建模工具有哪些?
常见的数据建模工具有哪些?企业选择数据建模工具时,需要找到现在和将来最有可能使用的功能。企业并不需要拥有所有功能的工具,但可以尝试采用一些不同的平台找出可以满足其需求并提高生产率的工具。可以集成来自不同系统的数据,使用免费的数据建模工具来组织大数据,以便更轻松地访问信息。通过寻找复杂概念的图形表示来了解企业的业务。
9731
2020-03-23 17:05:45
HDFS基本操作学习总结
本文为大家总结了关于HDFS基本操作的学习笔记,具体内容包括Shell命令行客户端、Shell命令选项和Shell常用命令介绍。全文干货建议大家收藏起来,在学习和工作中慢慢进行记忆和查询~
6031
2020-06-10 10:56:20
大数据开发和软件开发哪个前景好?
大数据开发学习有难度,零基础入门要先学习Java语言打基础,然后进入大数据技术体系的学习,学习Hadoop、Spark、Storm等知识。软件开发工程师根据不同的学科从事的岗位也千差万别。
5626
2020-10-15 09:41:45
大数据开发要学Java框架吗?
学习大数据要去学习Java而且还要精通,不仅要掌握Java基础知识还要掌握一些核心的Java架构。从java基础开始,学习大数据开发过程中必备的离线数据分析、实时数据分析和内存数据计算等,掌握大数据体系中几乎所有的核心技术。
4002
2021-01-26 11:45:34
热门文章
- 前端是什么
- 前端开发的工作职责
- 前端开发需要会什么?先掌握这三大核心关键技术
- 前端开发的工作方向有哪些?
- 简历加分-4步写出HR想要的简历
- 程序员如何突击面试?两大招带你拿下面试官
- 程序员面试技巧
- 架构师的厉害之处竟然是这……
- 架构师书籍推荐
- 懂了这些,才能成为架构师 查看更多
扫描二维码,了解更多信息
