如何解决Python,Pandas:比较两个数据帧并返回组合
晚上好,
我想知道,比较两个数据帧并返回它们的组合的最佳方法是什么?或者,如果熊猫内部甚至有一个内置函数?
例如,这是我的两个数据帧:
数据框 01:
first_name | age | id | value_a | value_b | value_c
peter | 37 | 19 | 4562 | 78 | 21.5
jane | 32 | 5 | 3832 | 85 | 17.0
michael | 43 | 41 | 2195 | 63 | 44.4
数据框 02:
first_name | age | id | value_a | value_b | value_c
sarah | 51 | 2 | 63 | 81 | 4.1
peter | 37 | 19 | 4562 | 81 | 21.5
tom | 22 | 89 | 107 | 14 | 0.0
michael | 43 | 41 | 1838 | 63 | 44.4
如您所见,整个数据框(Dataframe 02)中有一些新条目,并且还列出了一些已经存在的条目 --> 在这些行中进行了一些更改! 我想要实现的是一个新的(?)数据框,其中包含所有新行、已经存在的行和那些已更新的行!在这种情况下:
新数据框
first_name | age | id | value_a | value_b | value_c
peter | 37 | 19 | 4562 | 81 | 21.5
jane | 32 | 5 | 3832 | 85 | 17.0
michael | 43 | 41 | 1838 | 63 | 44.4
sarah | 51 | 2 | 63 | 81 | 4.1
tom | 22 | 89 | 107 | 14 | 0.0
注意事项:
- 总有一列(这里是:'id')可以看作是一个不变的键
- 行数可能不同
- 列的数量和名称始终保持不变
- 行的顺序并不重要
感谢您的帮助,祝您有个美好的夜晚!
解决方法
既然你问熊猫内部是否有内置函数?。答案是肯定的,pandas 中有一个内置函数,可以让您比较标记相同(具有相同索引和列)的数据框。
有一个 DataFrame.compare
函数,它在 Pandas 版本 >= 1.1.0
中可用,并允许您将第一个数据帧与第二个数据帧进行比较并显示差异:
那么,现在让我们看看你所说的例子
- 总有一列(这里是:'id')可以看作是一个不变的键
- 列的数量和名称始终保持不变
因此,为了比较两个数据帧,您首先需要align
这两个数据帧,这可以在设置列 id
后使用 DataFrame.align
函数完成作为两个数据帧中的公共 index
:
d1,d2 = df1.set_index('id').align(df2.set_index('id'))
现在您可以在对齐的数据帧上使用 DataFrame.compare
:
d1.compare(d2,keep_equal=True)
结果:
first_name age value_a value_b value_c
self other self other self other self other self other
id
2 NaN sarah NaN 51.0 NaN 63.0 NaN 81.0 NaN 4.1
5 jane NaN 32.0 NaN 3832.0 NaN 85.0 NaN 17.0 NaN
19 peter peter 37.0 37.0 4562.0 4562.0 78.0 81.0 21.5 21.5
41 michael michael 43.0 43.0 2195.0 1838.0 63.0 63.0 44.4 44.4
89 NaN tom NaN 22.0 NaN 107.0 NaN 14.0 NaN 0.0
现在来回答你的第二个问题:
如何实现一个包含所有新行的 new(?) 数据框, 已经存在的和更新的!
您可以在对齐的数据框 d1
和 d2
上使用 DataFrame.comine_first
:
d2.combine_first(d1)
或者,在非对齐的如下:
df2.set_index('id').combine_first(df1.set_index('id'))
结果:
first_name age value_a value_b value_c
id
2 sarah 51.0 63.0 81.0 4.1
5 jane 32.0 3832.0 85.0 17.0
19 peter 37.0 4562.0 81.0 21.5
41 michael 43.0 1838.0 63.0 44.4
89 tom 22.0 107.0 14.0 0.0
,
这是一种方法
ViewModel
版权声明:本文内容由互联网用户自发贡献,该文观点与技术仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌侵权/违法违规的内容, 请发送邮件至 dio@foxmail.com 举报,一经查实,本站将立刻删除。