技术频道

公众号推荐

微信公众号搜"智元新知"关注
微信扫一扫可直接关注哦！

kafka面试题

时间：2022-09-04分类：Kafka作者：编程之家原文地址

1.为什么kafka可以实现高吞吐?单节点kafka的吞吐量也比其他的消息队列大，为什么？

(1)零拷贝
(2)顺序日志
（3）预读
（4）后写：放到磁盘缓存，到达一定值的时候，操作系统一次性写入很多数据
（5）分段日志：
（6）批处理：双端队列
（7）压缩：byte数组

2.kafka的偏移量offset存放在哪？

早些时放zookeeper，zk是做调度用的，如果经常更新偏移量会影响性能
0.9版本后放岛kafka cluster(zookeeper 会生成一个topic:_consumer_offset)
自定义：避免数据重复，可以禁止自动提交，可以放岛MysqL中，或者redis中

3.kafka用什么方式消费数据，拉还是推？

（1）poll（速率问题），如果是推的方式，有可能消费端承载不了，如果网络阻塞，服务就可能中断了，用拉的方式可以均衡速率

4.如何保证数据不会出现丢失或者重复消费的情况？

（1）同步
（2）ACK -1或者All
(3)自己维护offset避免重复消费（低级API）

5.Kafka的元数据存在哪？

（1）ZK中（包含 /controller,/cluster,/consumer,/broker）

6.为什么使用kafka，可不可以用flume直接将数据放在hdfs上

（1）Flume只是传输框架，不能存储
（2）Flume丢失数据
（3）消费者出来比较麻烦

7.kafka如何保证不同的订阅源都收到相同的一份内容

（1）HW高水位
（2）LEO

8.kafka中的leader的选举机制

（1）先选broker，然后从ISR中选leader
https://blog.csdn.net/qq_37142346/article/details/91349100

9.kafka的运行机制

10.提高kafka的消费速度（吞吐量优化）

（1）增加分区与消费者
(2)增加拉取数据的大小
(3)增大批处理的大小

11.kafka的分区数据有有序性？分区数据存放的算法？分区的好处？

12.ISR中什么情况下brokerId会消失

(1)副本down掉
(2)网络阻塞
(3)数据落后太多Lag ，leader会从ISR中移除这个follower

标题 13.flume和kafka有序吗

（1）flume有序(Queue)
(2)kafka同一个分区有序，不保证不同分区有序

14.kafka的offset,flume的组成，项目中为什么用了两层？

15.kafka消费的高级API，低级API？

16.怎么手动维护offset？

（1）关闭自动提交
（2）调用方法Consumer.commitSync()
(3)保存offset到MysqL或者redis中

版权声明：本文内容由互联网用户自发贡献，该文观点与技术仅代表作者本人。本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。如发现本站有涉嫌侵权/违法违规的内容，请发送邮件至 dio@foxmail.com 举报，一经查实，本站将立刻删除。

上一篇：java实操｜mysql数据增量同步到kaf 下一篇：Debezium监控mysql数据并把数据库变

相关推荐

kafka分区分配策略

# 前言现有主流消息中间件都是生产者-消费者模型，主要角色都是：Producer -> Broker -> Consumer，上手起来非常简单，但仍有需要知识点需要我们关注，才能避免一些错误的使用情况，或者使用起来更加高效，例如本篇要讲的kafka分区分配策略。在开始前我们先简单回顾

作者：jtea 时间：2024-09-24

Kafka报错：Exception in thread “main“ joptsimple.UnrecognizedOptionException: zookeeper is not a recogn

错误的根源是：kafka版本过高所致，2.2+=的版本，已经不需要依赖zookeeper来创建/查看topic，新版本使用--bootstrap-server替换老版本的--zookeeper-server，即可解决。

作者：血煞长虹时间：2022-12-20

湖仓一体电商项目十九：业务实现之编写写入DWS层业务代码

DWS层主要是存放大宽表数据，此业务中主要是针对Kafka topic “KAFKA-DWD-BROWSE-LOG-TOPIC”中用户浏览商品日志数据关联HBase中“ODS_PRODUCT_CATEGORY”商品分类表与“ODS_PRODUCT_INFO”商品表维度数据获取浏览商品主题大宽表。以上代码执行后在，在对应的Kafka “KAFKA-DWS-BROWSE-LOG-WIDE-TOPIC” topic中都有对应的数据。在Iceberg-DWS层中对应的表中也有数据。

作者：Lansonli 时间：2022-12-19

Springboot 配置使用 Kafka

不多BB讲原理，只教你怎么用，看了全网没有比我更详细的了，yml 配置，Config 工厂代码配置都有，batch-size、acks、offset、auto-commit、trusted-packages、poll-timeout、linger 应有尽有，批量消费、开启事务、定义批量消费数量、延时发送、失败重试、异常处理你还想要什么As we all know，当今世界最流行的消息中间件有 RabbitMq、RocketMq、Kafka，其中，应用最广泛的是RabbitMq，RocketMq。

作者：繁华尽头满是殇时间：2022-12-19

【Kafka从成神到升仙系列五】面试官问我 Kafka 生产者的网络架构，我直接开始从源码背起.......

终于写完了，其实最开始学kafka的时候是今年2月份，那时候还不懂什么是IO，看源码的通信基本看不懂后来，花了几个月的时间学了操作系统 --> 计算机网络 --> Linux 通信 --> Java NIO --> Netty，现在看Kafka的通信就变得通透了。另外，基本现在所有源码的通信都有Netty架构的影子所以，如果你也想学源码的话，最好是先看看Netty的相关知识，学完之后，你会发现，通信架构不过如此。如果你能看到这，想必已经跟完了整个Producer网络架构就是整个生产者运行的全部流程。

作者：爱敲代码的小黄时间：2022-12-19

Greenplum GPKafka【实践 01】使用GPKafka实现Kafka数据导入Greenplum数据库踩坑问题记录不断更新ing

使用GPKafka实现Kafka数据导入Greenplum数据库踩坑问题记录（不断更新ing）

作者：シ風箏时间：2022-12-19

uni-app 超详细教程一从菜鸟到大佬

uniapp 超详细教程（从菜鸟到大佬）

作者：邢帥兵_ 时间：2022-12-06

Flink最全面教程(自己总结的)

用了100+天总结出来的Flink学习笔记

作者：Moleft 时间：2022-12-06

通过java方式使用Kafka

基于Java API方式使用Kafka

作者：李大寶时间：2022-12-06

【Kafka从成神到升仙系列四】你真的了解 Kafka 的缓存池机制嘛

本章我们讲述了Kafka生产端为了避免频繁的GC，创建了缓存池的机制当生产端申请的内存为16KB时，从缓存池中取缓存使用，非16KB则取不可复用的ByteBuffer使用我们在生产中要尽量避免不可复用的ByteBuffer的产生，根据当前的业务去调整batch.size的大小，否则容易造成频繁的GC，影响我们的线上业务。下一章我们将会更新Kafka 生产端的网络 I/O 模型喜欢kafka的可以点个关注吆，后续会继续更新其源码文章。

作者：爱敲代码的小黄时间：2022-11-25

小编推荐

苹果市值2025年有望达4万亿美元