SQLServe 重复行删除方法

Microsoft sql Server 表不应该包含重复行和非唯一主键。为简洁起见，在本文中我们有时称主键为“键”或“PK”，但这始终表示“主键”。重复的 PK 违反了实体完整性，在关系系统中是不允许的。sql Server 有各种强制执行实体完整性的机制，包括索引、唯一约束、主键约束和触发器。
尽管如此，在某些情况下还可能会出现重复的主键;如果出现此类情况，就必须清除重复主键。出现重复主键的情形之一是，在 sql Server 外部的非关系数据中存在重复的 PK，在导入这些数据时没有强制执行 PK 唯一性。出现重复主键的另一种情形来自数据库设计错误，如没有对每张表强制执行实体完整性。
　　通常在尝试创建唯一索引时会发现重复的 PK，因为如果找到重复的键，唯一索引的创建即会中止，并且将显示以下消息：
　　Msg 1505,Level 16,State 1 Create unique index aborted on duplicate key.
　　如果使用的是 sql Server 2000 或 sql Server 2005，则会收到以下错误消息：
　　Msg 1505,State 1 CREATE UNIQUE INDEX terminated because a duplicate key was found for object name '%.*ls' and index name '%.*ls'.The duplicate key value is %ls.
　　本文讨论如何查找和删除表中重复的主键。但是，您应该仔细检查出现重复键的进程以避免重复出现。
　　更多信息
　　在该示例中，我们将使用下表，它具有重复的 PK 值。在该表中，主键是两列(col1、col2)。我们无法创建唯一索引或主键约束，因为这两行具有重复的 PK。该过程演示如何识别和删除重复的主键。

代码如下:

　　create table t1(col1 int,col2 int,col3 char(50)) 
　　insert into t1 values (1,1,'data value one') 
　　insert into t1 values (1,2,'data value two') 

　　第一步是识别哪些行具有重复的主键值：

代码如下:

　　SELECT col1,col2,count(*) 
　　FROM t1 
　　GROUP BY col1,col2 
　　HAVING count(*) > 1 

　　这将为表中的每组重复的 PK 值返回一行。此结果中的最后一列是特定 PK 值的重复数。
　　col1 col2
　　1 1 2 　　如果只有几组重复的 PK 值，则最佳方法是手动逐个删除它们。例如：

代码如下:

　　set rowcount 1 
　　delete from t1 
　　where col1=1 and col2=1 

　　rowcount 值应该是给定键值的重复数减去 1。在该示例中，有 2 个重复的主键，所以 rowcount 被设置为 1。col1/col2 值来自上面的 GROUP BY 查询结果。如果 GROUP BY 查询返回多行，则“set rowcount”查询将必须为这些行中的每一行各运行一次。每次运行该查询时，将 rowcount 设置为特定 PK 值的重复数减去 1。
　　在删除行之前，您应该验证是否整行重复。虽然整行重复不太可能发生，但可能 PK 值重复，而整行不重复。例如一个将身份证号码作为主键的表，该表有两个具有相同号码的不同的人(即行)，但每个人有唯一的属性。在这种情况下，任何引起重复键的问题可能还引起在行中放入有效的唯一的数据。在删除该数据之前，应该将该数据复制出来并保存下来以进行研究和适当的调整。
　如果表中有多组完全不同的重复的 PK 值，则逐个删除它们会很费时间。在这种情况下，可使用下面的方法： 1.首先，运行上面的 GROUP BY 查询来确定有多少组重复的 PK 值及每组的重复数。
　　2.选择重复的键值放入临时表中。例如：

代码如下:

　　SELECT col1,col3=count(*) 
　　INTO holdkey 
　　FROM t1 
　　GROUP BY col1,col2 
　　HAVING count(*) > 1 

　　3.选择重复的行放入临时表中，以清除进程中的重复值。例如：

代码如下:

　　SELECT disTINCT t1.*
　　INTO holddups
　　FROM t1,holdkey
　　WHERE t1.col1 = holdkey.col1
　　AND t1.col2 = holdkey.col2

　　4.此时，holddups 表应有唯一的 PK;但是，如果 t1 有重复的 PK 而行唯一(如上面的 SSN 示例)，情况就不是这样了。请验证 holddups 中的各个键是否唯一，是否没有键重复而行唯一的情况。如果是这样，您必须停在该处，确定对于给定重复的键值，您希望保留哪些行。例如，以下查询：

代码如下:

　　SELECT col1,count(*) 
　　FROM holddups 
　　GROUP BY col1,col2 

　　应为各行返回计数 1。如果结果是 1，请继续执行下面的步骤 5。如果不是 1，则存在键重复而行唯一的情况，且需要您决定要保存哪些行。通常，这将需要舍弃行或为此行创建新的唯一的键值。为 holddups 表中每个此种重复 PK 执行这两个步骤之一。
　　5.从原始表中删除重复的行。例如：

代码如下:

　　DELETE t1 
　　FROM t1,holdkey 
　　WHERE t1.col1 = holdkey.col1 
　　AND t1.col2 = holdkey.col2 

　　6.将唯一行放回原始表中。例如：
　　INSERT t1 SELECT * FROM holddups

SQLServe 重复行删除方法

相关推荐