在线客服
扫描二维码
下载博学谷APP
扫描二维码
关注博学谷微信公众号
意见反馈

原创大数据kafka常见面试题整理附答案

发布时间：2019-08-06 16:23:49 浏览 10981 来源：博学谷资讯作者：照照

kafka一直都是大数据面试题的必考点。因此，小编整理了有关kafka知识点的大数据面试题，主要针对kafka的定义、与传统消息系统的区别、kafka集群的安装与搭建三大问题，并附上了参考答案。需要梳理kafka知识点的同学可以看看。

大数据kafka常见面试题

1、什么是 kafka？

Apache Kafka 是一个开源消息系统，由 Scala 写成。是由 Apache 软件基金会开发的一个开源消息系统项目。

Kafka 最初是由 LinkedIn 开发，并于 2011 年初开源。2012 年 10 月从 Apache Incubator 毕业。该项目的目标是为处理实时数据提供一个统一、高通量、低等待的平台。

Kafka 是一个分布式消息队列：生产者、消费者的功能。它提供了类似于JMS 的特性，但是在设计实现上完全不同，此外它并不是 JMS 规范的实现。Kafka 对消息保存时根据 Topic 进行归类，发送消息者称为 Producer，消息接受者称为 Consumer，此外 kafka 集群有多个 kafka 实例组成，每个实例(server) 成为 broker。无论是 kafka 集群，还是 producer 和 consumer 都依赖于 zookeeper 集群保存一些 meta 信息，来保证系统可用性

2、kafka 与传统消息系统的区别

（1）在架构 <http://lib.csdn.net/base/architecture>模型方面

RabbitMQ 遵循 AMQP 协议，RabbitMQ 的 broker 由 Exchange，Binding，queue组成，其中 exchange 和 binding 组成了消息的路由键；客户端 Producer 通过连接channel 和server 进行通信，Consumer 从queue 获取消息进行消费（长连接，queue有消息会推送到 consumer 端，consumer 循环从输入流读取数据）。rabbitMQ 以broker 为中心；有消息的确认机制。

kafka 遵从一般的 MQ 结构，producer，broker，consumer，以 consumer 为中心，消息的消费信息保存的客户端 consumer 上，consumer 根据消费的点，从broker 上批量 pull 数据；无消息确认机制。

（2）在吞吐量

kafka 具有高的吞吐量，内部采用消息的批量处理，zero-copy 机制，数据的存储和获取是本地磁盘顺序批量操作，具有 O(1)的复杂度，消息处理的效率很高。

rabbitMQ 在吞吐量方面稍逊于 kafka，他们的出发点不一样，rabbitMQ 支持对消息的可靠的传递，支持事务，不支持批量的操作；基于存储的可靠性的要求存储可以采用内存或者硬盘。

（3）在可用性方面

rabbitMQ 支持 miror 的 queue，主 queue 失效，miror queue 接管。kafka 的 broker 支持主备模式。

（4）在集群负载均衡方面

kafka 采用 zookeeper 对集群中的 broker、consumer 进行管理，可以注册 topic 到 zookeeper 上；通过 zookeeper 的协调机制，producer 保存对应 topic 的 broker 信息，可以随机或者轮询发送到 broker 上；并且 producer 可以基于语义指定分片，消息发送到 broker 的某分片上。

（5）kafka 与 activeMQ 的区别

Topic：主题，即一个标识，类似于 map 里面的 key，通过它来给消息分类，消息根据 Topic 进行归类。

共同点：都有生产者和消费者两大组件，生产者发送消息给各自的服务器，

(发送消息是就会定义一个 topic)并进行存储。不同点：

activeMQ：消费者会提前订阅自己需要的 topic，当该 topic 中有了消息以后，activeMQ 服务器会发送消息给消费者，然后消费者再去服务器中拿到自己想要的数据。

Kafka：消费者(指定 topic)会定时去 kafka 服务器中拿该 topic 中的数据。

（6）kafka 的组件介绍

producer：生产者，主要用于我们的消息的生产，通过 producer 将我们的消息 push 到 kafka 集群当中

topic：某一类消息的高度抽象，可以理解成某一类消息的集合，一类消息，每个topic 将被分成多个 partition(区)，在集群的配置文件中配置。broker：kafka 的服务器，一个 broker 就代表一个服务器的节点partition：分区的概念，一个 topic 当中的消息，可以拆分成多个 partition 分区，存放在多个不同的服务器上，实现数据存放的横向扩展。

repliaction：副本，所有的 partition 都可以指定存放几个副本，做到数据的冗余，保证数据的安全

segment：每个 partiiton 由多个 segment 组成，segment 又包含了两部分，一个.log 文件，一个是.index 文件

.log：存放我们的日志文件，所有的数据，最后都以日志文件的形式存放到了 kafka 集群当中

.index ：索引文件，所有的.log 文件的索引都存放在了这里，便于我们查找某一条日志文件的快速

consumer：消费者，消费我们 kafka 集群当中的消息，问题：如何知道消费者消费到了哪一条消息来了？？？可以通过记录的方式，记下来每次我们消费的位置。

第一种记录方式：kafka 的本地文件系统，比较慢，对应 kafka 的一个慢速消费的方式

第二种记录方式：zookeeper 当中的节点数据记录，比较快，对应 kafka 的一个快速消费的方式

offset：偏移量，就是记录的我们消费到了哪一条数据来了。

发布者发到某个 topic 的消息会被均匀的分布到多个 part 上，broker 收到发布消息往对应 part 的最后一个 segment 上添加该消息。

3、kafka 集群的安装与搭建

第一步：下载上传压缩包

第二步：解压

第三步：安装包的分发第

四步：修改配置文件

第一台服务器修改配置文件

第二台服务器修改配置文件第三台服务器修改配置文件第四步：三台服务器的启动三台服务器的启动

以上就是小编整理的全部大数据kafka常见面试题及答案啦，还想看相关内容的小伙伴可以继续关注博学谷资讯。

大数据岗位大数据面试

— 申请免费试学名额 —

在职想转行提升，担心学不会？根据个人情况规划学习路线，闯关式自适应学习模式保证学习效果
讲师一对一辅导，在线答疑解惑，指导就业！

上一篇：零基础大数据培训班课程怎么样？具体教些什么？下一篇：如何通过云计算大数据在线培训视频学习项目实战经验？

相关推荐 更多

大数据工程师面试时需要注意的那些致命判断题

大数据工程师属于IT行业里面的高薪岗位，所以企业在招聘的时候不仅仅要考虑他们的专业技能，还要考察大数据工程师对于问题的判断能力，从而保障项目的高效率执行。所以和大家分享一些大数据工程师面试时需要注意的那些致命判断题。

8261

2019-06-27 18:23:44

大数据工程师大数据面试
Namenode HA 知识点讲解

今天，小编准备了今天，小编准备了Namenode HA 知识点讲解，现在分享给大家。

7577

2019-07-04 16:13:08

大数据面试
ETL工程师是干什么的？ETL工程师工作内容介绍

随着大数据时代的来临，ETL工程师逐渐出现在大众的视野中，那么ETL工程师是干什么的呢？直白一点说，ETL工程师又叫数据库工程师，需要掌握各种流行的编程语言，每天的工作就是和数据库打交道，下面详细介绍一下ETL工程师的工作内容，以便于大家进一步了解这个职业。

59415

2019-09-15 12:34:13

大数据岗位大数据技术数据库
大数据行业发展前景分析与预测

大数据，已经是当下最热门的词汇了。一切有数据的地方就有大数据。那么大数据究竟是什么呢？大数据其实就是通过获取、存储、分析，从大容量数据中挖掘价值的一种全新的技术架构。随着大数据开发日新月异的发展，数据产业链逐步形成，我们可以看到大数据领域的未来发展仍然很大。下面我们就一起来分析和预测一下大数据行业的发展前景。

9262

2020-05-28 11:41:37

大数据岗位就业前景应用场景
为什么大数据技术那么火？

大数据技术的概念早在2008年被Google提出。在我国2012年提出《大数据研究和发展计划》，从此我国的开放、共享和只能的大数据时代正式开启。随着一线互联网企业在大数据领域的成熟应用，以及国内政策的支持。2016年，云计算大数据技术再次成为人们所追捧的热门技术，与此同时国内大数据人才培养体系逐渐完善，为大数据的普及应用提供源源不断的人才支撑。

4750

2020-09-15 17:36:12

大数据岗位大数据技术就业前景