微信公众号搜"智元新知"关注
微信扫一扫可直接关注哦!

使用 missingno 但得到不正确的结果

如何解决使用 missingno 但得到不正确的结果

我有一个空气污染数据框,其中缺少几个像这样的空白:

Date             AMB_TEMP      CO         PM10       PM2.5
2010-01-01 0         8         10         ...          15
2010-01-01 1         10        15         ...          20
...
2010-01-02 0                   5          ...           
2010-01-02 1                              ...          20
...
2010-01-03 1         4         13         ...          34     

要指定,这里是数据链接shorturl.at/blBN1

以第一列“环境温度”(amb_temp)为例:

下面给出了缺失的信息:

  1. 时间序列长度:87648
  2. 缺失值的数量746
  3. 缺失值的百分比:0.85 %
  4. 差距数:136
  5. 平均差距大小:5.485294
  6. 最长的 NA 差距(一系列连续的 NA):32
  7. 最常见的间隙大小(连续 NA 系列):1(出现 50 次)

我想绘制缺失值的概述,我所做的是:

    import missingno as msno
    missing_plot = msno.matrix(df,freq='Y')

得到这样的图:

result

显然,在第一列中,AMB_TEMP 与实际不一致。只有三个水平线,但实际上应该至少是 136。

**更新:感谢帕特里克,我也只尝试了一列,没有任何改进。

Temperature

代码是否有任何错误或其他..?

版权声明:本文内容由互联网用户自发贡献,该文观点与技术仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌侵权/违法违规的内容, 请发送邮件至 dio@foxmail.com 举报,一经查实,本站将立刻删除。