线性回归来估算缺失值 pandas python

如何解决线性回归来估算缺失值 pandas python

我正在尝试对分类变量使用线性回归方法。因此我认为最好使用基于虚拟的方法。我知道我的数据集的 delivery_cost 列中存在一些缺失值。通过 is.null() 我发现有 17 个值丢失了。

我知道送货成本呈线性关系（每个分店的配送方式不同，例如 Sunshine、Footscray 等）

分支已经通过 store_id 列，离散变量被虚拟化
dist_to_nearest_storehouse 是一个连续变量
seasons 是一个离散变量（因此夏季、春季、冬季、秋季将被视为虚拟变量）

我也需要小心，因为 isLoyaltyProgram（0 - 不是忠诚度的一部分，1 - 忠诚度的一部分）delivery_cost 打折了 10%

我首先想知道使用线性回归是否是查找缺失值的正确方法。

我目前正在使用 Pandas 读取可在文本文件中找到的 csv 文件 https://paste.pythondiscord.com/raw/uvadaroyoj

如果有人能给我一些关于背后代码的指导，我很乐意阅读它。

谢谢。

解决方法

据我所知，您正在尝试根据其他变量（dist_to_nearest_storehouse、season、isLoyaltyProgram）预测缺失值。所以你使用什么模型取决于你的数据和你的假设：如果你相信所有的变量都与 y 有线性关系，那么你可以使用线性回归，如果不是，你可以使用可以拟合非线性数据的模型（SVM 、决策树、神经网络）。但就我个人而言，对于 17 个缺失值，如果它们不是我的样本量的很大一部分，我会放弃它们。