微信公众号搜"智元新知"关注
微信扫一扫可直接关注哦!

卡夫卡分区偏移量分布不均

如何解决卡夫卡分区偏移量分布不均

负载测试后的一个测试环境中,我的场景中我们的kafka分区的偏移量分布不均匀。如果它偏离了几百个,我认为这很正常,但这似乎有所不同。

在10个分区中,我看到以下分区分布情况:

-------------------------
|partition  |     offset|
-------------------------
|0          |    100000+|
-------------------------
|1          |       ~200|
-------------------------
|2 - 10     |        ~50|
-------------------------
...

负载测试生成唯一键,并将它们分配给所生成的事件。根据kafka文档,只要密钥不相同,就应该随机选择一个分区。在我看来,第一个分区的偏移量是如此之高,并想知道是否有人知道为什么会发生这种情况?

在正常情况下,似乎只有在执行负载测试时,这种情况才会发生。

[编辑]:仅生产者配置与SSL设置相关。其他所有内容均为认设置。 key是在负载测试期间使用uuid/v4生成的。

{
  host: process.env.KAFKA_URL,requestTimeout: 1000,ssl: true,sslOptions: config.sslOptions
}

解决方法

根据kafka文档,只要键不相同,就应该随机选择一个分区。

DefaultPartitioner类的逻辑更像是

hash(key) % numberOfPartitions

写成code

看来您的密钥大多落在分区0上,可能值得重新考虑密钥的创建和/或选择其他分区策略。

如果您确实希望循环选择分区,可以使用null键。

,

使用键选择分区有两个依赖项:

  1. 如果生产者为每个消息记录提供相同的密钥,则哈希将为您提供相同的哈希号,但不能确保如果您提供两个不同的密钥,则它将永远不会为您提供相同的哈希号。 / li>
  2. 默认分区程序使用键的哈希值和主题上的分区总数来确定分区号。如果增加分区号,则如果您提供相同的密钥,则默认分区器将平均返回不同的数字。其说明如下:https://jaceklaskowski.gitbooks.io/apache-kafka/content/kafka-producer-internals-DefaultPartitioner.html

也-> https://www.learningjournal.guru/courses/kafka/kafka-foundation-training/custom-partitioner/

版权声明:本文内容由互联网用户自发贡献,该文观点与技术仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌侵权/违法违规的内容, 请发送邮件至 dio@foxmail.com 举报,一经查实,本站将立刻删除。