如何解决如果两列相同,则更改数据框中的值
我正在清理数据框以训练机器学习模型,我发现某些条目在一列中有两个不同的值。例如:
A | B |
---|---|
1234 | 脚 |
1234 | 栏 |
由于两个条目的 A 列中的值都是 1234
,因此 B 列中的值在两种情况下都应为 foo
(或 bar
)。
我为此尝试了一种蛮力方法:
for index1,row1 in df.iterrows():
for index2,row2 in df.iterrows():
if (row1['A'] == row2['A']) and ((row1['B'] != row2['B'])):
print(f'Found duplicated A with different B!')
row1['B'] == row2['B']
row1['C'] == row2['C'] == False
但可能有一种我看不到的更简单的方法来做到这一点。大熊猫有什么办法可以解决这个问题吗?
解决方法
您可以使用 groupby.transform('first')
(或 'last'
):
df['B'] = df.groupby('A')['B'].transform('first')
版权声明:本文内容由互联网用户自发贡献,该文观点与技术仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌侵权/违法违规的内容, 请发送邮件至 dio@foxmail.com 举报,一经查实,本站将立刻删除。