在线客服
扫描二维码
下载博学谷APP扫描二维码
关注博学谷微信公众号
kafka一直都是大数据面试题的必考点。因此,小编整理了有关kafka知识点的大数据面试题,主要针对kafka的定义、与传统消息系统的区别、kafka集群的安装与搭建三大问题,并附上了参考答案。需要梳理kafka知识点的同学可以看看。
1、什么是 kafka?
Apache Kafka 是一个开源消息系统,由 Scala 写成。是由 Apache 软件基金会开发的一个开源消息系统项目。
Kafka 最初是由 LinkedIn 开发,并于 2011 年初开源。2012 年 10 月从 Apache Incubator 毕业。该项目的目标是为处理实时数据提供一个统一、高通量、低等待的平台。
Kafka 是一个分布式消息队列:生产者、消费者的功能。它提供了类似于JMS 的特性,但是在设计实现上完全不同,此外它并不是 JMS 规范的实现。Kafka 对消息保存时根据 Topic 进行归类,发送消息者称为 Producer,消息接受者称为 Consumer,此外 kafka 集群有多个 kafka 实例组成,每个实例(server) 成为 broker。无论是 kafka 集群,还是 producer 和 consumer 都依赖于 zookeeper 集群保存一些 meta 信息,来保证系统可用性
2、kafka 与传统消息系统的区别
(1)在架构 <http://lib.csdn.net/base/architecture>模型方面
RabbitMQ 遵循 AMQP 协议,RabbitMQ 的 broker 由 Exchange,Binding,queue组成,其中 exchange 和 binding 组成了消息的路由键;客户端 Producer 通过连接channel 和server 进行通信,Consumer 从queue 获取消息进行消费(长连接,queue有消息会推送到 consumer 端,consumer 循环从输入流读取数据)。rabbitMQ 以broker 为中心;有消息的确认机制。
kafka 遵从一般的 MQ 结构,producer,broker,consumer,以 consumer 为中心,消息的消费信息保存的客户端 consumer 上,consumer 根据消费的点,从broker 上批量 pull 数据;无消息确认机制。
(2)在吞吐量
kafka 具有高的吞吐量,内部采用消息的批量处理,zero-copy 机制,数据的存储和获取是本地磁盘顺序批量操作,具有 O(1)的复杂度,消息处理的效率很高。
rabbitMQ 在吞吐量方面稍逊于 kafka,他们的出发点不一样,rabbitMQ 支持对消息的可靠的传递,支持事务,不支持批量的操作;基于存储的可靠性的要求存储可以采用内存或者硬盘。
(3)在可用性方面
rabbitMQ 支持 miror 的 queue,主 queue 失效,miror queue 接管。kafka 的 broker 支持主备模式。
(4)在集群负载均衡方面
kafka 采用 zookeeper 对集群中的 broker、consumer 进行管理,可以注册 topic 到 zookeeper 上;通过 zookeeper 的协调机制,producer 保存对应 topic 的 broker 信息,可以随机或者轮询发送到 broker 上;并且 producer 可以基于语义指定分片,消息发送到 broker 的某分片上。
(5)kafka 与 activeMQ 的区别
Topic:主题,即一个标识,类似于 map 里面的 key,通过它来给消息分类, 消息根据 Topic 进行归类。
共同点:都有生产者和消费者两大组件,生产者发送消息给各自的服务器,
(发送消息是就会定义一个 topic)并进行存储。不同点:
activeMQ:消费者会提前订阅自己需要的 topic,当该 topic 中有了消息以后,activeMQ 服务器会发送消息给消费者,然后消费者再去服务器中拿到自己想要的数据。
Kafka:消费者(指定 topic)会定时去 kafka 服务器中拿该 topic 中的数据。
(6)kafka 的组件介绍
producer:生产者,主要用于我们的消息的生产,通过 producer 将我们的消息 push 到 kafka 集群当中
topic:某一类消息的高度抽象,可以理解成某一类消息的集合,一类消息,每个topic 将被分成多个 partition(区),在集群的配置文件中配置。broker:kafka 的服务器,一个 broker 就代表一个服务器的节点partition:分区的概念,一个 topic 当中的消息,可以拆分成多个 partition 分区,存放在多个不同的服务器上,实现数据存放的横向扩展。
repliaction:副本,所有的 partition 都可以指定存放几个副本,做到数据的冗余,保证数据的安全
segment:每个 partiiton 由多个 segment 组成,segment 又包含了两部分,一个.log 文件,一个是.index 文件
.log:存放我们的日志文件,所有的数据,最后都以日志文件的形式存放到了 kafka 集群当中
.index :索引文件,所有的.log 文件的索引都存放在了这里,便于我们查找某一条日志文件的快速
consumer:消费者,消费我们 kafka 集群当中的消息, 问题:如何知道消费者消费到了哪一条消息来了??? 可以通过记录的方式,记下来每次我们消费的位置。
第一种记录方式:kafka 的本地文件系统,比较慢,对应 kafka 的一个慢速消费的方式
第二种记录方式:zookeeper 当中的节点数据记录,比较快,对应 kafka 的一个快速消费的方式
offset:偏移量,就是记录的我们消费到了哪一条数据来了。
发布者发到某个 topic 的消息会被均匀的分布到多个 part 上,broker 收到发布消息往对应 part 的最后一个 segment 上添加该消息。
3、kafka 集群的安装与搭建
第一步:下载上传压缩包
第二步:解压
第三步:安装包的分发第
四步:修改配置文件
第一台服务器修改配置文件
第二台服务器修改配置文件第三台服务器修改配置文件第四步:三台服务器的启动三台服务器的启动
以上就是小编整理的全部大数据kafka常见面试题及答案啦,还想看相关内容的小伙伴可以继续关注博学谷资讯。
— 申请免费试学名额 —
在职想转行提升,担心学不会?根据个人情况规划学习路线,闯关式自适应学习模式保证学习效果
讲师一对一辅导,在线答疑解惑,指导就业!
相关推荐 更多
学数据挖掘技术能做哪些工作?可以从事哪些行业?
学数据挖掘技术能做哪些工作?可以从事哪些行业?随着大数据时代的来临,大数据早已渗透我们生活和工作的方方面面。尤其是数据挖掘更是被各行各业广泛应用,像互联网、电商、金融、医疗等等行业对掌握数据挖掘技术的人才更是有着相当优渥的报酬。至于数据挖掘的相关岗位更是选择多多,下面来具体了解一下吧!
9344
2019-10-15 10:29:58
大数据疑难解答 Hbase内部是什么机制?
众所周知,HBase是一个非关系型数据库,它的特征是分布式、列式存储、开源和版本化。无论是在大数据的面试中,还是大数据的工作中,这都是一个经常会出现的难题,然而却很少人能够说清Hbase内部机制。今天我们就花些时间聊聊Hbase内部是什么机制。
6657
2019-10-17 18:13:28
大数据有哪些工作岗位?都需要掌握哪些技能?
随着大数据时代的来临,大数据的应用已经深入我们生活的方方面面。现在,各行各业对大数据人才的需求都是空前巨大的。那么,大数据有哪些工作岗位?都需要掌握哪些技能呢?目前,大数据工程师工作领域大致可分为五类:离线相关工作岗位、Storm实时计算工作岗位、Spark内存计算工作岗位、Flink 实时计算工作岗位和机器学习相关岗位。下面我们来看看从事以上岗位要学习掌握的技能。
7258
2020-03-12 12:42:17
学大数据有哪些高薪工作可以选?
大数据行业目前有多火爆就不用多说了,我们生活和工作的方方面面都和大数据技术息息相关。由于大数据在各个行业的广泛应用,导致了大数据人才缺口的进一步扩大。可能有人会问了,学大数据有哪些高薪工作可以选呢?首先大数据的整体就业薪资都挺高,而且的就业方向也很多。下面为大家介绍一些大数据行业的高薪岗位。
4650
2020-08-13 15:28:17
学习大数据开发现在好就业吗
现在开始学习大数据晚了吗?现在学习大数据后还好就业吗?随着互联网应用基础的不断普及,大数据技术已经成为互联网企业的标配。大数据技术已经在国内持续火爆了几年的时间。每年都有大量的人才涌入到大数据行业中,对于现在刚刚入场大数据开发技术的人来说,现在还有机会吗?
3659
2020-09-14 15:59:15