微信公众号搜"智元新知"关注
微信扫一扫可直接关注哦!

用“in”删除重复记录

如何解决用“in”删除重复记录

我有一张这样的桌子:

CREATE TABLE foo (
  id SERIAL,a INTEGER,b INTEGER,some DOUBLE,other VARCHAR,data INTEGER
);

而且我知道 (a,b) 必须是唯一的,但由于某些原因,这不是由数据库强制执行的。假设我不关心进一步的歧视,我只是不时地清除重复项,并且可能只保留最近的(ID 最大的):

DELETE FROM foo WHERE id NOT IN (SELECT max(id) FROM foo GROUP BY a,b);

现在假设有 100.000 条记录,IN (...) 变得非常大。

我了解自联接(例如:DELETE FROM foo a LEFT JOIN foo b ON a.a = b.a AND a.b = b.b WHERE b.id < a.id),但这也意味着如果我有很多重复项,我会得到巨大的中间表。

我有哪些选择?

解决方法

如果要删除旧的重复值,可以使用:

delete from foo
    where foo.id < (select max(foo2.id)
                    from foo foo2
                    where foo2.a = foo.a and foo2.b = foo.b
                   );

请注意,(a,b,id) 上的索引将有助于提高性能。

您也可以将其表述为连接:

delete from foo
    using (select a,max(id) as max_id
           from foo
           group by a,b
          ) ab
    where foo.a = a.a and foo.b = ab.b and foo.id < ab.max_id;

版权声明:本文内容由互联网用户自发贡献,该文观点与技术仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌侵权/违法违规的内容, 请发送邮件至 dio@foxmail.com 举报,一经查实,本站将立刻删除。