如何在Kaggle上估算Sberbank俄罗斯住房市场数据集中缺少的“ build_year”列？

如何解决如何在Kaggle上估算Sberbank俄罗斯住房市场数据集中缺少的“ build_year”列？

我正在从事一个学术项目，该项目涉及根据Sberbank Russian Housing Market数据集预测房价。但是，我被困在特定列的data cleaning处理中，该处理指示构建属性的日期。我不能只用平均值或中位数来代替impute缺失值。我一直在寻找所有可能的方式来推算有意义的数据，而不仅仅是随机数。另外，该项目的范围仅允许我在linear regression models中使用R，所以我不希望像XGBoost这样的模型自动处理插补。

解决方法

您的问题非常广泛。实际上，这里有多个R软件包可以为您提供帮助：

missForest
imputeR
mice
VIM
simputation

甚至更多，有一个完整的官方TaskView专门列出R中的插补程序包。主要查找单个插补程序包，因为它们很适合您的任务。

无法告诉您，哪种方法最适合您的特定任务。这取决于您的数据和事后使用的线性回归模型。

因此，您必须进行测试，使用插补算法和回归模型的哪种组合才能获得最佳的总体性能。

因此，总体而言，您正在测试使用哪种功能工程/预处理+插补算法+回归模型来归档最佳结果。

请注意测试中的泄漏（在测试和训练数据集之间意外共享信息）。通常，您可以组合训练+测试数据并在完整的数据集上执行插补。但重要的是，应从测试数据集中删除目标变量。（因为您不会获得真实数据）

大多数提到的软件包都非常易于使用，下面是missForest的示例：

library("missForest")

# create example dataset with missing values
missing_data_iris <- prodNA(iris,noNA = 0.1)  

# Impute the dataset
missForest(missing_data_iris)

其他软件包同样易于使用。通常，对于所有这些单一插补包来说，它只是一个函数，您输入不完整的数据集，而无需NA即可获得数据。