技术频道

公众号推荐

微信公众号搜"智元新知"关注
微信扫一扫可直接关注哦！

python kafka发送中文的编码问题

时间：2022-09-04分类：Kafka作者：编程之家原文地址AI导航网

项目中需要构造带有中文字符非json的测试数据，格式如下：

{'userid': 0, 'ts': '2022-08-03 16:33:38.487973', 'user_name': '中国人'}

发过去之后发现消费出来的都是unicode的编码，且指定了utf-8也没用，一开始以为是kafka producer的value_serializer序列化器用的不对，后面发现其实是代码里json.dumps没用好的原因

# -*- coding: utf-8 -*-
import time
from kafka import KafkaConsumer, KafkaProducer
import json

from kafka.errors import KafkaError
import datetime


producer = KafkaProducer(sasl_mechanism='PLAIN',
                        security_protocol='SASL_PLAINTEXT',
                        sasl_plain_username='xxxxx',
                        sasl_plain_password='xxxxxxxx',
                        bootstrap_servers=['xxxxxxxxxxx'],
                        #这里的dumps可以指定ensure_ascii=False
                        value_serializer=lambda m: json.dumps(m,ensure_ascii=False).encode(),
                        api_version="2.0.0")

try:
    # produce asynchronously
    for i in range(100):
        Now_time = str(datetime.datetime.Now())
        send_json={
            "userid": i,
            "ts":Now_time,
            "user_name":"中国人"
        }
        print(send_json)
        future = producer.send('xxxxxxxxxxx', send_json)

        try:
            record_Metadata = future.get(timeout=2)
        except KafkaError:
            # Decide what to do if produce request Failed...
            print("send error!")
            pass
        time.sleep(1)

    print(record_Metadata.partition)
    print(record_Metadata.offset)

finally:
    producer.close()

这样就可以把原来的{"userid": 1, "ts": "2022-08-03 16:12:26.595478", "user_name": "\u4e2d\u56fd\u4eba"}改成{"userid": 1, "ts": "2022-08-03 16:33:39.576068", "user_name": "中国人"}

另外1个新手容易犯的错误

1、pyhton中通过str将json强行转换成str类型时，key和value的引号是单引号的，这样发送到kafka，对下游不是很友好，比如下游用java或者flinksql消费的时候可能会出问题，建议用标准序列化json.dumps来转

版权声明：本文内容由互联网用户自发贡献，该文观点与技术仅代表作者本人。本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。如发现本站有涉嫌侵权/违法违规的内容，请发送邮件至 dio@foxmail.com 举报，一经查实，本站将立刻删除。

上一篇：kafka~消费群组如何重新消费下一篇：kafka 拦截器

相关推荐

kafka分区分配策略

# 前言现有主流消息中间件都是生产者-消费者模型，主要角色都是：Producer -> Broker -> Consumer，上手起来非常简单，但仍有需要知识点需要我们关注，才能避免一些错误的使用情况，或者使用起来更加高效，例如本篇要讲的kafka分区分配策略。在开始前我们先简单回顾

作者：jtea 时间：2024-09-24

Kafka报错：Exception in thread “main“ joptsimple.UnrecognizedOptionException: zookeeper is not a recogn

错误的根源是：kafka版本过高所致，2.2+=的版本，已经不需要依赖zookeeper来创建/查看topic，新版本使用--bootstrap-server替换老版本的--zookeeper-server，即可解决。

作者：血煞长虹时间：2022-12-20

湖仓一体电商项目十九：业务实现之编写写入DWS层业务代码

DWS层主要是存放大宽表数据，此业务中主要是针对Kafka topic “KAFKA-DWD-BROWSE-LOG-TOPIC”中用户浏览商品日志数据关联HBase中“ODS_PRODUCT_CATEGORY”商品分类表与“ODS_PRODUCT_INFO”商品表维度数据获取浏览商品主题大宽表。以上代码执行后在，在对应的Kafka “KAFKA-DWS-BROWSE-LOG-WIDE-TOPIC” topic中都有对应的数据。在Iceberg-DWS层中对应的表中也有数据。

作者：Lansonli 时间：2022-12-19

Springboot 配置使用 Kafka

不多BB讲原理，只教你怎么用，看了全网没有比我更详细的了，yml 配置，Config 工厂代码配置都有，batch-size、acks、offset、auto-commit、trusted-packages、poll-timeout、linger 应有尽有，批量消费、开启事务、定义批量消费数量、延时发送、失败重试、异常处理你还想要什么As we all know，当今世界最流行的消息中间件有 RabbitMq、RocketMq、Kafka，其中，应用最广泛的是RabbitMq，RocketMq。

作者：繁华尽头满是殇时间：2022-12-19

【Kafka从成神到升仙系列五】面试官问我 Kafka 生产者的网络架构，我直接开始从源码背起.......

终于写完了，其实最开始学kafka的时候是今年2月份，那时候还不懂什么是IO，看源码的通信基本看不懂后来，花了几个月的时间学了操作系统 --> 计算机网络 --> Linux 通信 --> Java NIO --> Netty，现在看Kafka的通信就变得通透了。另外，基本现在所有源码的通信都有Netty架构的影子所以，如果你也想学源码的话，最好是先看看Netty的相关知识，学完之后，你会发现，通信架构不过如此。如果你能看到这，想必已经跟完了整个Producer网络架构就是整个生产者运行的全部流程。

作者：爱敲代码的小黄时间：2022-12-19

Greenplum GPKafka【实践 01】使用GPKafka实现Kafka数据导入Greenplum数据库踩坑问题记录不断更新ing

使用GPKafka实现Kafka数据导入Greenplum数据库踩坑问题记录（不断更新ing）

作者：シ風箏时间：2022-12-19

uni-app 超详细教程一从菜鸟到大佬

uniapp 超详细教程（从菜鸟到大佬）

作者：邢帥兵_ 时间：2022-12-06

Flink最全面教程(自己总结的)

用了100+天总结出来的Flink学习笔记

作者：Moleft 时间：2022-12-06

通过java方式使用Kafka

基于Java API方式使用Kafka

作者：李大寶时间：2022-12-06

【Kafka从成神到升仙系列四】你真的了解 Kafka 的缓存池机制嘛

本章我们讲述了Kafka生产端为了避免频繁的GC，创建了缓存池的机制当生产端申请的内存为16KB时，从缓存池中取缓存使用，非16KB则取不可复用的ByteBuffer使用我们在生产中要尽量避免不可复用的ByteBuffer的产生，根据当前的业务去调整batch.size的大小，否则容易造成频繁的GC，影响我们的线上业务。下一章我们将会更新Kafka 生产端的网络 I/O 模型喜欢kafka的可以点个关注吆，后续会继续更新其源码文章。

作者：爱敲代码的小黄时间：2022-11-25

小编推荐

苹果市值2025年有望达4万亿美元