我有一个包含许多列的大型数据框(如1000).我有一个列列表(由脚本生成~10).我想选择原始数据框中的所有行,其中至少有一列我的列不为空.
所以如果我事先知道我的列数,我可以这样做:
list_of_cols = ['col1',...]
df[
df[list_of_cols[0]].notnull() |
df[list_of_cols[1]].notnull() |
...
df[list_of_cols[6]].notnull() |
]
我也可以遍历cols列表并创建一个掩码然后我将应用于df,但他看起来太乏味了.知道熊猫在处理nan方面有多强大,我希望有一种方法可以更轻松地实现我想要的东西.
最佳答案
在dropna()方法中使用thresh参数.通过设置thresh = 1,指定如果至少有1个非空项,则不要删除它.
df = pd.DataFrame(np.random.choice((1.,np.nan),(1000,1000),p=(.3,.7)))
list_of_cols = list(range(10))
df[list_of_cols].dropna(thresh=1).head()
版权声明:本文内容由互联网用户自发贡献,该文观点与技术仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌侵权/违法违规的内容, 请发送邮件至 dio@foxmail.com 举报,一经查实,本站将立刻删除。