微信公众号搜"智元新知"关注
微信扫一扫可直接关注哦!

Python的’set’运算符不适用于numpy.nan

我注意到将NaN值列表转换为集合时出现问题:

import pandas as pd
import numpy as np

x = pd.DataFrame({'a':[None,None]})
x_numeric = pd.to_numeric(x['a']) #converts to numpy.float64
set(x_numeric)

这应该返回{nan}但是返回{nan,nan}.但是,这样做:

set([numpy.nan, numpy.nan])

返回预期的{nan}.前者显然是类numpy.float64,而后者认是类float.

知道为什么set()不能与numpy.float64 NaN值一起使用吗?我正在使用Pandas版本0.18和Numpy版本1.10.4.

解决方法:

float64数组中的NaNs并不指向内存中与np.NaN相同的空间(它们与数组中的每个其他数字一样,数组中为8个字节).当我们采用id时,我们可以看到这一点:

In [11]: x_numeric
Out[11]:
0   NaN
1   NaN
Name: a, dtype: float64

In [12]: x_numeric.apply(id)
Out[12]:
0    4657312584
1    4657312536
Name: a, dtype: int64

In [13]: id(np.nan)
Out[13]: 4535176264

In [14]: id(np.nan)
Out[14]: 4535176264

这是一种python“gotcha”,这是一种优化(因为它是一个优化(在检查set equality python之前检查它是否是同一个对象:在内存中具有相同的id / location):

In [21]: s = set([np.nan])

In [22]: np.nan in s
Out[22]: True

In [23]: x_numeric.apply(lambda x: x in s)
Out[23]:
0    False
1    False
Name: a, dtype: bool

它是“陷阱”的原因是因为与大多数对象不同,NaN不等于它自己:

In [24]: np.nan == np.nan
Out[24]: False

版权声明:本文内容由互联网用户自发贡献,该文观点与技术仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌侵权/违法违规的内容, 请发送邮件至 dio@foxmail.com 举报,一经查实,本站将立刻删除。

相关推荐