技术频道

公众号推荐

微信公众号搜"智元新知"关注
微信扫一扫可直接关注哦！

flink elasticsearch sink table 忽略部分字段开发

时间：2022-09-04分类：Flink作者：编程之家原文地址

接上一篇，实现flink对elasicsearch的source/table

flink elasticsearch sink 的 table写，默认会写些'冗余'列进es

es table写，官方支持自定义主键列，和主键列的连接方式(-)

以这几个列连接，计算id ,做为es的_id 写入es

同时也像logstash/nifi 那样支持动态index,配置索引列，写入对的应索引

写入没有问题

问题是这些参于计算的列，也都会一并写入_source,虽然可以通过配置es的mapping，减少这些列的开销，但毕竟看着碍事

有没有办法不写入这些列？

官方没有，就自已想办法定制

结全flink的应用经验，并结合上篇es source的适配经验，很简单就实现了

1 官方的sink table是dynamic table 生成的是rowdata

2 sink 结合scheme 实现对rowdata的解析，转为json字符串，bulk写入es

问题就出现在这一步，scheme有列信息 rowdata 有列数据

把要转为字符串的rowdata及scheme 都去掉相应的列，问题就应该解决了

添加自定义参数名，ignore-fields 构造时加载

遍历旧scheme，过滤掉ignore-fields 列，生成新的scheme，以scheme做序列化

报错

因为rowdata和scheme不匹配，rowdata内的列也需要去掉

rowdata不支持k/v访问，但字段顺序和scheme一致，通过scheme算出ignore-fields在rowdata内的index

过滤掉rowdata的相关列，重新生成rowdata即可

如些问题解决，测试通过，写入es不再会有'冗余'字段

但该方法只是功能满足，实际性能有损失

scheme的加载是一次性的，没有影响

但对每一行数据rowdata，都要过滤字段，生成新的rowdata，开销相对较大，有一定影响

最完美的办法是在序列化的时候，也就是flink的原码基础上做，序列化时对rowdata不必要的字段做过滤

而不是构造一个过滤字段后的rowdata,由flink序列化

实现一个同名类，扔到flink/lib下，和官方类，先后顺序不清楚

必要时自已改动序列化部分，编译flink,部署

https://github.com/cclient/flink-connector-elasticsearch-sink

版权声明：本文内容由互联网用户自发贡献，该文观点与技术仅代表作者本人。本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。如发现本站有涉嫌侵权/违法违规的内容，请发送邮件至 dio@foxmail.com 举报，一经查实，本站将立刻删除。

上一篇：Flink1.12-End-to-End Exactly-Onc 下一篇：大数据Flink组件安装部署

相关推荐

Flink-core小总结

Flink-core小总结1.实时计算和离线计算1.1离线计算离线计算的处理数据是固定的离线计算是有延时的，T+1离线计算是数据处理完输出结果，只是输出最终结果离线计算相对可以处理复杂的计算1.2实时计算实时计算是实时的处理数据，数据从流入到计算出结果延迟低实时计算是输

作者：编程之家时间：2022-10-13

开源项目丨Taier1.2版本发布，新增工作流、租户绑定简化等多项功能

2022年7月26日，Taier1.2版本正式发布！本次版本发布更新功能：新增工作流新增OceanBaseSQL新增Flinkjar任务数据同步、实时采集支持脏数据管理HiveUDF控制台UI升级租户绑定简化新版本的使用文档已在社区中推送，大家可以随时下载查阅，欢迎大家体验新版本功能

作者：编程之家时间：2022-10-13

Flink Java DemoWindows

关于Flink相关的概念性东西就不说了，网上都有，官网也很详尽。本文主要记录一下Java使用Flink的简单例子。首先，去官网下载Flink的zip包（链接就不提供了，你已经是个成熟的程序员了，该有一定的搜索能力了），解压后放到你想放的地方。进入主目录后，是这样子的 image.png你可以简

作者：编程之家时间：2022-09-04

Flink window二翻译官方文档

最近准备用flink对之前项目进行重构，这是一个有挑战（但我很喜欢）的工作。几个月过去了，flink社区比起我做技术调研那阵发生了很多变化（包括blink的版本回推），我这边的版本也由1.4->1.7.2。现在网上有很多大方向的解析（阿里的几次直播），也有大神对框架的深入解析。我准备实际使用中mark一些

作者：编程之家时间：2022-09-04

Flink监控：Monitoring Apache Flink Applications

Thispostoriginallyappearedonthe ApacheFlinkblog.Itwasreproducedhereunderthe ApacheLicense,Version2.0.ThisblogpostprovidesanintroductiontoApacheFlink’sbuilt-inmonitoringandmetricssystem,thatallowsdeveloperstoeffectively

作者：编程之家时间：2022-09-04

flink-conf.yaml

Flink配置文件对于管理员来说，差不多经常调整的就只有conf下的flink-conf.yaml：经过初步的调整，大约有以下模块的参数（未优化）LicensedtotheApacheSoftwareFoundation(ASF)underoneormorecontributorlicenseagreements.SeetheNOTICEfiledistributedwiththis

作者：编程之家时间：2022-09-04

flink入门：01 构建简单运行程序

1.mac平台安装flink（默认最新版）brewinstallapache-flink安装结果：Version1.7.1,commitID:89eafb42.jdk版本，我尝试使用了Java8和Java11，都能兼容3.在flink的安装目录下，启动flink目录一般默认在/usr/local/Cellar/apache-flink/1.7.1/（查找flink安装目录：find/-name

作者：编程之家时间：2022-09-04

基于Flink流处理的动态实时电商实时分析系统视频教程

课程目标：学完该课程大家会对Flink有非常深入的了解，同时可以体会到Flink的强大之处，以及可以结合自己公司的业务进行使用，减少自己研究和学习Flink的时间。适合人群：适合有大数据开发基础和flink基础的同学。在开始学习前给大家说下什么是Flink？ 1.Flink是一个针对流数据和批数据的

作者：编程之家时间：2022-09-04

聊聊flink的NetworkEnvironmentConfiguration

本文主要研究一下flink的NetworkEnvironmentConfigurationNetworkEnvironmentConfigurationflink-1.7.2/flink-runtime/src/main/java/org/apache/flinkuntimeaskmanager/NetworkEnvironmentConfiguration.javapublicclassNetworkEnvironmentCon

作者：编程之家时间：2022-09-04

Flink应用案例：How Trackunit leverages Flink to process real-time data from industrial IoT devices

January22,2019 UseCases, ApacheFlinkLasseNedergaard Recentlytherehasbeensignificantdiscussionaboutedgecomputingasamajortechnologytrendin2019.Edgecomputingbrings computingcapabilitiesawayfromthecloud,andrathercloset

作者：编程之家时间：2022-09-04

小编推荐

苹果市值2025年有望达4万亿美元