微信公众号搜"智元新知"关注
微信扫一扫可直接关注哦!

熊猫比较数据库中的两行

如何解决熊猫比较数据库中的两行

我有一个这样的数据框;

df = pd.DataFrame(np.array([['apple','golden',3],['apple','green',6],['banana',9],5],6]]),columns=['Column1','Column2','Column3'])
df

    Column1 Column2 Column3
0   apple   golden  3
1   apple   green   6
2   banana  golden  9
3   apple   golden  5
4   apple   green   6
5   banana  golden  6

我想将“Column1”行与在新的 Column4 中迭代进行比较。如果有差异,我想写下 True,如果不是 False。

    Column1 Column2 Column3 Column4
0   apple   golden  3       False
1   apple   green   6       False
2   banana  golden  9       True
3   apple   golden  5       True
4   apple   green   6       False
5   banana  golden  6       True

最后,如果比较结果为真,我想将 Column1 项添加到列表中。

list = ['banana']

解决方法

比较不等于的移位值,并用 Column1 替换第一个值到原始 fillna

df['Column4'] = df.Column1.shift().fillna(df.Column1).ne(df.Column1)

print (df)
  Column1 Column2  Column3  Column4
0   apple  golden        3    False
1   apple   green        6    False
2  banana  golden        9     True
3   apple  golden        5     True
4   apple   green        6    False
5  banana  golden        6     True

对于列表不要使用list,因为python代码字:

L = df.loc[df['Column4'],'Column1'].unique().tolist()
print (L)
['banana','apple']
,

如果我正确理解您的问题,这应该可行:

df['Column4'] = np.where(df.Column1.shift(1) != df.Column1,True,False)
df['Column4'][0] = False  #Since the above method would set the first row as True comparing it to nothing


list = df['Column1'].loc[df.Column4].to_list()

Column1 中的值为 Column4 时,上面的行将给出 True 中的值列表。

版权声明:本文内容由互联网用户自发贡献,该文观点与技术仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌侵权/违法违规的内容, 请发送邮件至 dio@foxmail.com 举报,一经查实,本站将立刻删除。