技术频道

公众号推荐

微信公众号搜"智元新知"关注
微信扫一扫可直接关注哦！

Flume面试题

时间：2022-09-04分类：Kafka作者：编程之家原文地址AI导航网

1、Flume使用场景

线上数据一般主要是落地（存储到磁盘）或者通过socket传输给另外一个系统，这种情况下，你很难推动线上应用或服务去修改接口，实现直接向kafka里写数据，这时候你可能就需要flume这样的系统帮你去做传输。

2、Flume丢包问题

单机upd的flume source的配置，100+M/s数据量，10w qps flume就开始大量丢包，因此很多公司在搭建系统时，抛弃了Flume，自己研发传输系统，但是往往会参考Flume的Source-Channel-Sink模式。

一些公司在Flume工作过程中，会对业务日志进行监控，例如Flume agent中有多少条日志，Flume到Kafka后有多少条日志等等，如果数据丢失保持在1%左右是没有问题的，当数据丢失达到5%左右时就必须采取相应措施。

3、Flume与Kafka的选取

采集层主要可以使用Flume、Kafka两种技术。

Flume：Flume 是管道流方式，提供了很多的默认实现，让用户通过参数部署，及扩展API。

Kafka：Kafka是一个可持久化的分布式的消息队列。

Kafka 是一个非常通用的系统。你可以有许多生产者和很多的消费者共享多个主题Topics。相比之下，Flume是一个专用工具被设计为旨在往HDFS，HBase发送数据。它对HDFS有特殊的优化，并且集成了Hadoop的安全特性。所以，Cloudera 建议如果数据被多个系统消费的话，使用kafka；如果数据被设计给Hadoop使用，使用Flume。

正如你们所知Flume内置很多的

版权声明：本文内容由互联网用户自发贡献，该文观点与技术仅代表作者本人。本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。如发现本站有涉嫌侵权/违法违规的内容，请发送邮件至 dio@foxmail.com 举报，一经查实，本站将立刻删除。

上一篇：2021Java网络编程总结篇，写的太详下一篇：Kafka基础术语

相关推荐

kafka分区分配策略

# 前言现有主流消息中间件都是生产者-消费者模型，主要角色都是：Producer -> Broker -> Consumer，上手起来非常简单，但仍有需要知识点需要我们关注，才能避免一些错误的使用情况，或者使用起来更加高效，例如本篇要讲的kafka分区分配策略。在开始前我们先简单回顾

作者：jtea 时间：2024-09-24

Kafka报错：Exception in thread “main“ joptsimple.UnrecognizedOptionException: zookeeper is not a recogn

错误的根源是：kafka版本过高所致，2.2+=的版本，已经不需要依赖zookeeper来创建/查看topic，新版本使用--bootstrap-server替换老版本的--zookeeper-server，即可解决。

作者：血煞长虹时间：2022-12-20

湖仓一体电商项目十九：业务实现之编写写入DWS层业务代码

DWS层主要是存放大宽表数据，此业务中主要是针对Kafka topic “KAFKA-DWD-BROWSE-LOG-TOPIC”中用户浏览商品日志数据关联HBase中“ODS_PRODUCT_CATEGORY”商品分类表与“ODS_PRODUCT_INFO”商品表维度数据获取浏览商品主题大宽表。以上代码执行后在，在对应的Kafka “KAFKA-DWS-BROWSE-LOG-WIDE-TOPIC” topic中都有对应的数据。在Iceberg-DWS层中对应的表中也有数据。

作者：Lansonli 时间：2022-12-19

Springboot 配置使用 Kafka

不多BB讲原理，只教你怎么用，看了全网没有比我更详细的了，yml 配置，Config 工厂代码配置都有，batch-size、acks、offset、auto-commit、trusted-packages、poll-timeout、linger 应有尽有，批量消费、开启事务、定义批量消费数量、延时发送、失败重试、异常处理你还想要什么As we all know，当今世界最流行的消息中间件有 RabbitMq、RocketMq、Kafka，其中，应用最广泛的是RabbitMq，RocketMq。

作者：繁华尽头满是殇时间：2022-12-19

【Kafka从成神到升仙系列五】面试官问我 Kafka 生产者的网络架构，我直接开始从源码背起.......

终于写完了，其实最开始学kafka的时候是今年2月份，那时候还不懂什么是IO，看源码的通信基本看不懂后来，花了几个月的时间学了操作系统 --> 计算机网络 --> Linux 通信 --> Java NIO --> Netty，现在看Kafka的通信就变得通透了。另外，基本现在所有源码的通信都有Netty架构的影子所以，如果你也想学源码的话，最好是先看看Netty的相关知识，学完之后，你会发现，通信架构不过如此。如果你能看到这，想必已经跟完了整个Producer网络架构就是整个生产者运行的全部流程。

作者：爱敲代码的小黄时间：2022-12-19

Greenplum GPKafka【实践 01】使用GPKafka实现Kafka数据导入Greenplum数据库踩坑问题记录不断更新ing

使用GPKafka实现Kafka数据导入Greenplum数据库踩坑问题记录（不断更新ing）

作者：シ風箏时间：2022-12-19

uni-app 超详细教程一从菜鸟到大佬

uniapp 超详细教程（从菜鸟到大佬）

作者：邢帥兵_ 时间：2022-12-06

Flink最全面教程(自己总结的)

用了100+天总结出来的Flink学习笔记

作者：Moleft 时间：2022-12-06

通过java方式使用Kafka

基于Java API方式使用Kafka

作者：李大寶时间：2022-12-06

【Kafka从成神到升仙系列四】你真的了解 Kafka 的缓存池机制嘛

本章我们讲述了Kafka生产端为了避免频繁的GC，创建了缓存池的机制当生产端申请的内存为16KB时，从缓存池中取缓存使用，非16KB则取不可复用的ByteBuffer使用我们在生产中要尽量避免不可复用的ByteBuffer的产生，根据当前的业务去调整batch.size的大小，否则容易造成频繁的GC，影响我们的线上业务。下一章我们将会更新Kafka 生产端的网络 I/O 模型喜欢kafka的可以点个关注吆，后续会继续更新其源码文章。

作者：爱敲代码的小黄时间：2022-11-25

小编推荐

苹果市值2025年有望达4万亿美元