如何解决如何处理 Pandas 中的缺失值
我想知道当我们有一个缺失值的数据集时,处理它们的最佳方法是什么?直接去掉还是用零替换?
假设我有这些日期:
id | 名称 | 价格 | product_group |
---|---|---|---|
1 | nd | 14.35 | 关心 |
2 | nd | 10.02 | 妆容 |
3 | nd | 5.40 | nd |
4 | nd | 7.68 | nd |
我需要分析“产品组”列中的日期并尝试使用此代码删除值“nd”,但它不起作用。
order['product_group'] = order['product_group'].replace('nd',np.nan)
order['product_group'] = order['product_group'].dropna(how='any')
解决方法
可以索引 'nd'
列内的 product_group
行,然后将它们从原始数据框中删除:
import pandas as pd
i= order[(order.product_group=='nd')].index
order.drop(i)
,
您应该在整个数据框上dropna()
,而在 subset
列上只product_group
:
order['product_group'] = order['product_group'].replace('nd',np.nan)
order = order.dropna(subset=['product_group'])
# id name price product_group
# 0 1 nd 14.35 care
# 1 2 nd 10.02 makeup
至于为什么您的版本不起作用,请注意,当您单独在列上 dropna()
时(没有重新分配),效果很好:
order['product_group'].dropna()
# 0 care
# 1 makeup
# Name: product_group,dtype: object
但是如果您将这个简短的系列分配回完整的数据帧,pandas 不知道如何处理额外的行,只会将 nan
值放回去。
版权声明:本文内容由互联网用户自发贡献,该文观点与技术仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌侵权/违法违规的内容, 请发送邮件至 dio@foxmail.com 举报,一经查实,本站将立刻删除。