微信公众号搜"智元新知"关注
微信扫一扫可直接关注哦!

大量丢失数据的分类

如何解决大量丢失数据的分类

在构建用于对学生进行分类的模型时,主要功能包括

gender | Ethnicity | State | Zip code | Test score | Education | Job title | Current gpa | Admission

由于数据是在线收集的,因此许多功能缺少大量数据。功能“测试分数”对于入学决定应该很重要,但是却漏掉了大约80%。似乎插补是不切实际的。

应该将其保留为功能并使用EM或贝叶斯网络,对那些对丢失数据不敏感的算法支持SVM,还是在构建模型时直接删除功能?有什么建议吗?

解决方法

您应该删除该功能。仅有20%的成绩无法将考试成绩平均。具有分布的随机值也不能添加,因为它们是测试分数。

您可以尝试使用包含这些值的行来构建模型,并查看其是否有效。

版权声明:本文内容由互联网用户自发贡献,该文观点与技术仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌侵权/违法违规的内容, 请发送邮件至 dio@foxmail.com 举报,一经查实,本站将立刻删除。