如何解决大量丢失数据的分类
gender | Ethnicity | State | Zip code | Test score | Education | Job title | Current gpa | Admission
由于数据是在线收集的,因此许多功能缺少大量数据。功能“测试分数”对于入学决定应该很重要,但是却漏掉了大约80%。似乎插补是不切实际的。
应该将其保留为功能并使用EM或贝叶斯网络,对那些对丢失数据不敏感的算法支持SVM,还是在构建模型时直接删除此功能?有什么建议吗?
解决方法
您应该删除该功能。仅有20%的成绩无法将考试成绩平均。具有分布的随机值也不能添加,因为它们是测试分数。
您可以尝试使用包含这些值的行来构建模型,并查看其是否有效。
版权声明:本文内容由互联网用户自发贡献,该文观点与技术仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌侵权/违法违规的内容, 请发送邮件至 dio@foxmail.com 举报,一经查实,本站将立刻删除。