微信公众号搜"智元新知"关注
微信扫一扫可直接关注哦!

Clickhouse:删除重复数据

如何解决Clickhouse:删除重复数据

我在 clickhouse 中遇到重复数据的问题。 我的情况是我有部分记录,然后我必须按 text_id 对所有这些部分进行分组。 零件到货时间可能不同

例如:

id,text_id,total_parts,part_number,text
101,11,3,1,How
102,12,2,World
103,Hello
104,you
105,are

结果应该是这样的:

text_id,text
11,How are you
12,Hello World

我创建了一个视图来对所有部分进行分组,并且工作正常。 但是当我从这个视图阅读时,我想删除我已经阅读的行。我尝试在名为 flag 的表中添加一列,然后将此列更新为 1,然后将视图更改为读取 flag = 0。 但我在 clickhouse 文档中读到更新它会降低性能。我的表有数十亿条记录。

1- 如果我不能删除处理过的记录,视图会很慢。

2- 如果没有性能问题,我不想再次读取处理过的数据。

有什么建议吗?

版权声明:本文内容由互联网用户自发贡献,该文观点与技术仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌侵权/违法违规的内容, 请发送邮件至 dio@foxmail.com 举报,一经查实,本站将立刻删除。