大量丢失数据的分类

在构建用于对学生进行分类的模型时，主要功能包括，

gender | Ethnicity | State | Zip code | Test score | Education | Job title | Current gpa | Admission

由于数据是在线收集的，因此许多功能缺少大量数据。功能“测试分数”对于入学决定应该很重要，但是却漏掉了大约80％。似乎插补是不切实际的。

应该将其保留为功能并使用EM或贝叶斯网络，对那些对丢失数据不敏感的算法支持SVM，还是在构建模型时直接删除此功能？有什么建议吗？

您应该删除该功能。仅有20％的成绩无法将考试成绩平均。具有分布的随机值也不能添加，因为它们是测试分数。

您可以尝试使用包含这些值的行来构建模型，并查看其是否有效。