在线客服
扫描二维码
下载博学谷APP
扫描二维码
关注博学谷微信公众号
意见反馈

原创大数据Kafka进阶面试题汇总

发布时间：2019-08-22 19:26:09 浏览 5858 来源：博学谷资讯作者：照照

Kafka是一个分布式、支持分区的、多副本的，基于zookeeper协调的分布式消息系统，它的最大的特性就是可以实时的处理大量数据以满足各种需求场景。在大数据面试中，Kafka也是一个必考点。因此小编汇总了历年来比较经典常见的大数据Kafka进阶面试题。

大数据Kafka进阶面试题

一、Kafka的介绍

1、什么是Kafka？

Apache Kafka 是一个开源消息系统，由 Scala 写成。是由 Apache 软件基金会开发的一个开源消息系统项目。Kafka 最初是由 LinkedIn 开发，并于 2011 年初开源。2012 年 10 月从 Apache Incubator 毕业。该项目的目标是为处理实时数据提供一个统一、高通量、低等待的平台。

Kafka 是一个分布式消息队列：生产者、消费者的功能。它提供了类似于JMS 的特性，但是在设计实现上完全不同，此外它并不是 JMS 规范的实现。Kafka 对消息保存时根据 Topic 进行归类，发送消息者称为 Producer，消息接受者称为 Consumer，此外 kafka 集群有多个 kafka 实例组成，每个实例(server) 成为 broker。无论是 kafka 集群，还是 producer 和 consumer 都依赖于 zookeeper 集群保存一些 meta 信息，来保证系统可用性。

2、Kafka与传统消息系统的区别

（1）在架构模型方面

RabbitMQ 遵循 AMQP 协议，RabbitMQ 的 broker 由 Exchange，Binding，queue组成，其中 exchange 和 binding 组成了消息的路由键；客户端 Producer 通过连接channel 和server 进行通信，Consumer 从queue 获取消息进行消费（长连接，queue有消息会推送到 consumer 端，consumer 循环从输入流读取数据）。rabbitMQ 以broker 为中心；有消息的确认机制。kafka 遵从一般的 MQ 结构，producer，broker，consumer，以 consumer 为中心，消息的消费信息保存的客户端 consumer 上，consumer 根据消费的点，从broker 上批量 pull 数据；无消息确认机制。

（2）在吞吐量

Kafka具有高的吞吐量，内部采用消息的批量处理，zero-copy 机制，数据的存储和获取是本地磁盘顺序批量操作，具有 O(1)的复杂度，消息处理的效率很高。rabbitMQ 在吞吐量方面稍逊于 kafka，他们的出发点不一样，rabbitMQ 支持对消息的可靠的传递，支持事务，不支持批量的操作；基于存储的可靠性的要求存储可以采用内存或者硬盘。

（3）在可用性方面

rabbitMQ 支持 miror 的 queue，主 queue 失效，miror queue 接管。kafka 的 broker 支持主备模式。

（4）在集群负载均衡方面

Kafka采用 zookeeper 对集群中的 broker、consumer 进行管理，可以注册 topic 到 zookeeper 上；通过 zookeeper 的协调机制，producer 保存对应 topic 的 broker 信息，可以随机或者轮询发送到 broker 上；并且 producer 可以基于语义指定分片，消息发送到 broker 的某分片上。

3、Kafka与 activeMQ 的区别。

Topic：主题，即一个标识，类似于 map 里面的 key，通过它来给消息分类，消息根据 Topic 进行归类。

共同点：都有生产者和消费者两大组件，生产者发送消息给各自的服务器，(发送消息是就会定义一个 topic)并进行存储。

不同点：activeMQ：消费者会提前订阅自己需要的 topic，当该 topic 中有了消息以后，activeMQ 服务器会发送消息给消费者，然后消费者再去服务器中拿到自己想要的数据。

Kafka：消费者(指定 topic)会定时去 kafka 服务器中拿该 topic 中的数据。

4、Kafka的组件介绍

producer：生产者，主要用于我们的消息的生产，通过 producer 将我们的消息 push 到Kafka集群当中。

topic：某一类消息的高度抽象，可以理解成某一类消息的集合，一类消息，每个topic 将被分成多个 partition(区)，在集群的配置文件中配置。

broker：Kafka的服务器，一个 broker 就代表一个服务器的节点partition：分区的概念，一个 topic 当中的消息，可以拆分成多个 partition 分区，存放在多个不同的服务器上，实现数据存放的横向扩展。

repliaction：副本，所有的 partition 都可以指定存放几个副本，做到数据的冗余，保证数据的安全。

segment：每个 partiiton 由多个 segment 组成，segment 又包含了两部分，一个.log 文件，一个是.index 文件。

.log：存放我们的日志文件，所有的数据，最后都以日志文件的形式存放到了Kafka集群当中。

.index ：索引文件，所有的.log 文件的索引都存放在了这里，便于我们查找某一条日志文件的快速。

consumer：消费者，消费我们 kafka 集群当中的消息，问题：如何知道消费者消费到了哪一条消息来了？可以通过记录的方式，记下来每次我们消费的位置。

第一种记录方式：Kafka的本地文件系统，比较慢，对应 kafka 的一个慢速消费的方式。

第二种记录方式：zookeeper 当中的节点数据记录，比较快，对应 kafka 的一个快速消费的方式。

offset：偏移量，就是记录的我们消费到了哪一条数据来了。发布者发到某个 topic 的消息会被均匀的分布到多个 part 上，broker 收到发布消息往对应 part 的最后一个 segment 上添加该消息。

以上就是大数据Kafka进阶面试题汇总。还没有看够的同学可以报名博学谷的大数据就业班，有线上的高级讲师和就业老师，专门为大家培训大数据面试的相关内容，帮助大家顺利拿到offer。

大数据开发云计算

— 申请免费试学名额 —

在职想转行提升，担心学不会？根据个人情况规划学习路线，闯关式自适应学习模式保证学习效果
讲师一对一辅导，在线答疑解惑，指导就业！

上一篇：学大数据技术必须了解的大数据经典应用案例下一篇：零基础大数据培训课程怎么样？学什么？

相关推荐 更多

大数据是什么？与数据之间有什么区别？

大数据是什么？从字面的理解我可以认为他是大量的数据，而在计算机网络领域则将大数据定义为需要更新处理模式才能具有更强的决策力，洞察发现力和流程优化能力来适应海量，高增长了和多样化的薪资资产。因此大数据不仅仅是在数据量的变化，好包括其增长速度以及多样化的特性。

13526

2019-06-06 15:48:59

大数据开发
大数据时代带给我们的重大变革

无论是大数据、人工智能还是区块链都预示着科技的力量会将我们的日常生活带来巨大的变革。就目前而言，大数据已经在很多领域得到了实际的应用。也为我们的生活消费带来的巨大的变革。到2020年，世界上每个人每秒将创造7 MB的数据。下面试10个关于大数据未来预测的问题，告诉你大数据时代带给我们的重大变革。

9686

2019-08-09 18:04:05

大数据开发机器学习就业前景
数据分析师好找工作吗？薪资待遇怎么样？

数据分析师好找工作吗？回答无疑是肯定的。数据分析师一职在当下所谓的就业寒潮中，可以说是一路激流勇进。那么数据分析师的薪资待遇究竟怎么样呢？根据各大招聘网站整理的数据，我们可以看见，各知名互联网大厂都几乎开出了30K-70K的年薪，来吸引数据分析人才，但是岗位却仍然供不应求。

7404

2019-12-24 14:32:35

大数据开发就业方向就业前景
物联网怎么保护云计算安全？

全球应用的物联网设备已经达到数十亿台，且数量不断增加。在开发和部署的许多物联网设备却缺乏关键的安全功能为黑客和僵尸网络的目标。没有适当的安全措施，物联网设备会导致灾难性事件。如何解决这些问题呢？

4580

2020-03-23 17:51:20

大数据开发云计算
狂野大数据课程怎么样？项目实战多吗？

狂野大数据课程作为数字化人才的职场提升课程采用的是线上授课模式，学习该课程无需脱产对在职人群而言一边工作一边实现自我价值提升可谓一举两得。这门课程有一定门槛，课程适合有⼀定的IT⾏业经验，想要转⾏进⼊⼤数据开发或者有技术深造需求的同学。

3363

2022-09-16 15:31:39

大数据开发人工智能