如何解决R 中多个变量中缺失数据的百分比
我有一个包含缺失数据的数据集。我发现有 6 个变量缺少数据。我想检查数据百分比,但是我使用了mean is.na 但是我不确定这是否正确,我知道有一种更简单的方法检查这一点而不是使用重复代码,如下所示:
--------------------代码------------------- -------------
mean(is.na(TrainDataSet$KF6 ))
mean(is.na(TrainDataSet$KF9 ))
mean(is.na(TrainDataSet$KF10 ))
mean(is.na(TrainDataSet$F1 ))
mean(is.na(TrainDataSet$T2 ))
mean(is.na(TrainDataSet$ST7 ))
#Delete columns with missing data from TrainingSet
TrainDataSet <- TrainDataSet[,-c(11,14,15,21,28,54)]
我收到了所有列的回复,请仅提供上面 6 列的解决方案 **(KF6,KF9,KF10,F1,T2,ST7) **
解决方法
colMeans(is.na(airquality))
Ozone Solar.R Wind Temp Month Day
0.24183007 0.04575163 0.00000000 0.00000000 0.00000000 0.00000000
如果您只想要某些列,可以使用:
colMeans(is.na(airquality[c("Solar.R","Wind")]))
#colMeans(is.na(airquality[,2:3])) # equivalent by column position
Solar.R Wind
0.04575163 0.00000000
或者,使用 dplyr,您可以使用 summarize(across...
将代码应用于每个指定的列:
library(dplyr)
airquality %>% summarize(across(c(Solar.R,Wind),~mean(is.na(.x))))
Solar.R Wind
1 0.04575163 0
版权声明:本文内容由互联网用户自发贡献,该文观点与技术仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌侵权/违法违规的内容, 请发送邮件至 dio@foxmail.com 举报,一经查实,本站将立刻删除。