微信公众号搜"智元新知"关注
微信扫一扫可直接关注哦!

如何处理 Pandas 中的缺失值

如何解决如何处理 Pandas 中的缺失值

我想知道当我们有一个缺失值的数据集时,处理它们的最佳方法是什么?直接去掉还是用零替换?

假设我有这些日期:

id 名称 价格 product_group
1 nd 14.35 关心
2 nd 10.02 妆容
3 nd 5.40 nd
4 nd 7.68 nd

我需要分析“产品组”列中的日期并尝试使用此代码删除值“nd”,但它不起作用。

    order['product_group'] = order['product_group'].replace('nd',np.nan)
    order['product_group'] = order['product_group'].dropna(how='any')

解决方法

可以索引 'nd' 列内的 product_group 行,然后将它们从原始数据框中删除:

import pandas as pd

i= order[(order.product_group=='nd')].index

order.drop(i)
,

您应该在整个数据框上dropna(),而在 subset 列上只product_group

order['product_group'] = order['product_group'].replace('nd',np.nan)
order = order.dropna(subset=['product_group'])

#    id name  price product_group
# 0   1   nd  14.35          care
# 1   2   nd  10.02        makeup

至于为什么您的版本不起作用,请注意,当您单独在列上 dropna() 时(没有重新分配),效果很好:

order['product_group'].dropna()

# 0      care
# 1    makeup
# Name: product_group,dtype: object

但是如果您将这个简短的系列分配回完整的数据帧,pandas 不知道如何处理额外的行,只会将 nan 值放回去。

版权声明:本文内容由互联网用户自发贡献,该文观点与技术仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌侵权/违法违规的内容, 请发送邮件至 dio@foxmail.com 举报,一经查实,本站将立刻删除。