微信公众号搜"智元新知"关注
微信扫一扫可直接关注哦!

如何在Clickhouse中找到重复的记录

如何解决如何在Clickhouse中找到重复的记录

我想知道如何在 clickhouse 一个表中找到重复的数据条目

我实际上正在研究merge tree table,实际上将optimize statements扔到了我的桌子旁,但这并不能解决问题。重复的条目仍然存在。

首选不采用个别列名的通用策略。

我只想查看重复的条目,因为我正在处理非常大的表。

解决方法

直接的方法是运行此查询。

SELECT 
    *,count() AS cnt
FROM myDB.myTable
GROUP BY *
HAVING cnt > 1
ORDER BY date ASC

如果该查询很大,您可以分批运行它。

SELECT 
    *,count() AS cnt
FROM myDB.myTable
WHERE (date >= '2020-08-01') AND (date < '2020-09-01')
GROUP BY *
HAVING cnt > 1
ORDER BY date ASC

版权声明:本文内容由互联网用户自发贡献,该文观点与技术仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌侵权/违法违规的内容, 请发送邮件至 dio@foxmail.com 举报,一经查实,本站将立刻删除。