如何解决您是否会为集群项目中的缺失值处理丢弃功能或值?
想象一下,您有100列以上的列,大约90%的要素缺少大约20%的值。数据集总数约为10000+行。您会使用最常见的值来归类缺失值还是仅删除缺失值?正如我发现,插补后的PCA图是两条垂直线,可能是由于插补所致。删除这些功能后,该图看起来很正常(零星分布)。你有什么建议吗?谢谢。
解决方法
它的确取决于数据,一种可行的解决方案是用每个要素的平均值(或中位数)填充缺失值。如果清除了数据以发现明显的异常值并进行了缩放,那么对它们的影响不会太大。
这里另一个有希望的结果可能的解决方案是确定每个元素的k个最近邻居,并使用它们的平均值或中值填充行中缺失的列。请记住,维数诅咒会对这种方法产生负面影响
版权声明:本文内容由互联网用户自发贡献,该文观点与技术仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌侵权/违法违规的内容, 请发送邮件至 dio@foxmail.com 举报,一经查实,本站将立刻删除。