Python，Pandas：比较两个数据帧并返回组合

如何解决Python，Pandas：比较两个数据帧并返回组合

晚上好，

我想知道，比较两个数据帧并返回它们的组合的最佳方法是什么？或者，如果熊猫内部甚至有一个内置函数？

例如，这是我的两个数据帧：

数据框 01：

first_name | age | id | value_a | value_b | value_c
peter      | 37  | 19 | 4562    | 78      | 21.5
jane       | 32  | 5  | 3832    | 85      | 17.0
michael    | 43  | 41 | 2195    | 63      | 44.4

数据框 02：

first_name | age | id | value_a | value_b | value_c
sarah      | 51  | 2  | 63      | 81      | 4.1
peter      | 37  | 19 | 4562    | 81      | 21.5
tom        | 22  | 89 | 107     | 14      | 0.0
michael    | 43  | 41 | 1838    | 63      | 44.4

如您所见，整个数据框（Dataframe 02）中有一些新条目，并且还列出了一些已经存在的条目 --> 在这些行中进行了一些更改！我想要实现的是一个新的（？）数据框，其中包含所有新行、已经存在的行和那些已更新的行！在这种情况下：

新数据框

first_name | age | id | value_a | value_b | value_c
peter      | 37  | 19 | 4562    | 81      | 21.5
jane       | 32  | 5  | 3832    | 85      | 17.0
michael    | 43  | 41 | 1838    | 63      | 44.4
sarah      | 51  | 2  | 63      | 81      | 4.1
tom        | 22  | 89 | 107     | 14      | 0.0

注意事项：

总有一列（这里是：'id'）可以看作是一个不变的键
行数可能不同
列的数量和名称始终保持不变
行的顺序并不重要

感谢您的帮助，祝您有个美好的夜晚！

解决方法

既然你问熊猫内部是否有内置函数？。答案是肯定的，pandas 中有一个内置函数，可以让您比较标记相同（具有相同索引和列）的数据框。

有一个 DataFrame.compare 函数，它在 Pandas 版本 >= 1.1.0 中可用，并允许您将第一个数据帧与第二个数据帧进行比较并显示差异：

那么，现在让我们看看你所说的例子

总有一列（这里是：'id'）可以看作是一个不变的键
列的数量和名称始终保持不变

因此，为了比较两个数据帧，您首先需要align这两个数据帧，这可以在设置列 id 后使用 DataFrame.align 函数完成作为两个数据帧中的公共 index：

d1,d2 = df1.set_index('id').align(df2.set_index('id'))

现在您可以在对齐的数据帧上使用 DataFrame.compare：

d1.compare(d2,keep_equal=True)

结果：

         first_name     age           value_a         value_b       value_c      
         self    other  self other    self   other    self other    self other
id                                                                            
2         NaN    sarah   NaN  51.0     NaN    63.0     NaN  81.0     NaN   4.1
5        jane      NaN  32.0   NaN  3832.0     NaN    85.0   NaN    17.0   NaN
19      peter    peter  37.0  37.0  4562.0  4562.0    78.0  81.0    21.5  21.5
41    michael  michael  43.0  43.0  2195.0  1838.0    63.0  63.0    44.4  44.4
89        NaN      tom   NaN  22.0     NaN   107.0     NaN  14.0     NaN   0.0

现在来回答你的第二个问题：

如何实现一个包含所有新行的 new(?) 数据框，已经存在的和更新的！

您可以在对齐的数据框 d1 和 d2 上使用 DataFrame.comine_first：

d2.combine_first(d1)

或者，在非对齐的如下：

df2.set_index('id').combine_first(df1.set_index('id'))

结果：

   first_name   age  value_a  value_b  value_c
id                                            
2       sarah  51.0     63.0     81.0      4.1
5        jane  32.0   3832.0     85.0     17.0
19      peter  37.0   4562.0     81.0     21.5
41    michael  43.0   1838.0     63.0     44.4
89        tom  22.0    107.0     14.0      0.0

这是一种方法

ViewModel

Python，Pandas：比较两个数据帧并返回组合

如何解决Python，Pandas：比较两个数据帧并返回组合

解决方法

相关推荐