如何解决Python:比较Python中两个具有不同编号行和Compsite键的数据框
我需要比较两个不同的数据框。
这两个数据帧具有不同的行数,并且不具有(id || ver || name || prd || loc)的Pk复合主键
df1:
id ver name prd loc
a 1 surya 1a x
a 1 surya 1a y
a 2 ram 1a x
b 1 alex 1b z
b 1 alex 1b y
b 2 david 1b z
df2:
id ver name prd loc
a 1 surya 1a x
a 1 surya 1a y
a 2 ram 1a x
b 1 alex 1b z
我尝试了下面的代码,如果行数相同,则可以正常工作,但是如果像上面的情况一样,则行不通。
df1 = pd.DataFrame(Source)
df1 = df1.astype(str) #converting all elements as objects for easy comparison
df2 = pd.DataFrame(Target)
df2 = df2.astype(str) #converting all elements as objects for easy comparison
header_list = df1.columns.tolist() #creating a list of column names from df1 as the both df has same structure
df3 = pd.DataFrame(data=None,columns=df1.columns,index=df1.index)
for x in range(len(header_list)) :
df3[header_list[x]] = np.where(df1[header_list[x]] == df2[header_list[x]],'True','False')
df3.to_csv('Output',index=False)
请让我知道如果行数不同,如何比较数据集。
解决方法
您可以尝试以下方法:
~df1.isin(df2)
# df1[~df1.isin(df2)].dropna()
让我们考虑一个简单的例子:
df1 = pd.DataFrame({
'Buyer': ['Carl','Carl','Carl'],'Quantity': [18,3,5,]})
# Buyer Quantity
# 0 Carl 18
# 1 Carl 3
# 2 Carl 5
df2 = pd.DataFrame({
'Buyer': ['Carl','Mark','Quantity': [2,1,18,5]})
# Buyer Quantity
# 0 Carl 2
# 1 Mark 1
# 2 Carl 18
# 3 Carl 5
~df2.isin(df1)
# Buyer Quantity
# 0 False True
# 1 True True
# 2 False True
# 3 True True
df2[~df2.isin(df1)].dropna()
# Buyer Quantity
# 1 Mark 1
# 3 Carl 5
另一个想法可以是在同一列名上使用merge。
当然,请根据您的需要调整代码。希望这对您有所帮助:)
版权声明:本文内容由互联网用户自发贡献,该文观点与技术仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌侵权/违法违规的内容, 请发送邮件至 dio@foxmail.com 举报,一经查实,本站将立刻删除。