微信公众号搜"智元新知"关注
微信扫一扫可直接关注哦!

跨多个德鲁伊环境/集群的德鲁伊摄取

如何解决跨多个德鲁伊环境/集群的德鲁伊摄取

是否有一种简化的方法可以将原始数据摄取到一个 Druid 环境中,然后使用存储在 Druid Deep Storage 中的 Druid 的结果将结果重新摄取到不同的 Druid 环境(不同的 Druid 集群)中,或者只是从一个 Druid 集群中摄取到另一个德鲁伊集群?

FROM:原始数据 --> 数据管道/气流 --> Druid(环境 1) TO:原始数据 --> 气流 --> Druid(环境 1) --> Druid(环境 2)

由于将原始数据摄取到德鲁伊中需要时间,因此希望实现这一目标。我不想为每个环境摄取原始数据,而是想摄取一次原始数据并将结果复制到另一个 Druid 环境中。

深度存储使用 S3,因此我可以将数据从 S3(环境 1)复制到 S3(环境 2)。然而,元数据也需要更新,但这看起来是一种实现它的方式。

如果我想避免为每个 Druid 环境重复数据管道,还要寻找此场景的最佳实践。

解决方法

是的,这是可能的。如果您将元数据存储在例如 mysql 中,您只需复制这些数据并将这些记录插入到您的第二个环境中即可。

所有段数据都作为数据存储存储在 MySQL 中。这听起来很复杂,但事实并非如此。只需看看 druid_segments 表并过滤您的数据源。

只需复制您要“移动”的记录即可。只需确保可以从您的第二个环境访问深度存储文件的位置(路径)。可能,如果需要,您可以在“有效负载”字段中更改这些路径。

另请参阅此页面,了解一些有用的提示:

https://support.imply.io/hc/en-us/articles/115004960053-Migrate-existing-Druid-Cluster-to-a-new-Imply-cluster

版权声明:本文内容由互联网用户自发贡献,该文观点与技术仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌侵权/违法违规的内容, 请发送邮件至 dio@foxmail.com 举报,一经查实,本站将立刻删除。