微信公众号搜"智元新知"关注
微信扫一扫可直接关注哦!

线性回归来估算缺失值 pandas python

如何解决线性回归来估算缺失值 pandas python

我正在尝试对分类变量使用线性回归方法。 因此我认为最好使用基于虚拟的方法。 我知道我的数据集的 delivery_cost 列中存在一些缺失值。通过 is.null() 我发现有 17 个值丢失了。

我知道送货成本呈线性关系(每个分店的配送方式不同,例如 Sunshine、Footscray 等)

  • 分支已经通过 store_id 列,离散变量被虚拟化
  • dist_to_nearest_storehouse 是一个连续变量
  • seasons 是一个离散变量(因此夏季、春季、冬季、秋季将被视为虚拟变量)

我也需要小心,因为 isLoyaltyProgram(0 - 不是忠诚度的一部分,1 - 忠诚度的一部分)delivery_cost 打折了 10%

我首先想知道使用线性回归是否是查找缺失值的正确方法

我目前正在使用 Pandas 读取可在文本文件中找到的 csv 文件 https://paste.pythondiscord.com/raw/uvadaroyoj

如果有人能给我一些关于背后代码的指导,我很乐意阅读它。

谢谢。

解决方法

据我所知,您正在尝试根据其他变量(dist_to_nearest_storehouse、season、isLoyaltyProgram)预测缺失值。所以你使用什么模型取决于你的数据和你的假设:如果你相信所有的变量都与 y 有线性关系,那么你可以使用线性回归,如果不是,你可以使用可以拟合非线性数据的模型(SVM 、决策树、神经网络)。但就我个人而言,对于 17 个缺失值,如果它们不是我的样本量的很大一部分,我会放弃它们。

版权声明:本文内容由互联网用户自发贡献,该文观点与技术仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌侵权/违法违规的内容, 请发送邮件至 dio@foxmail.com 举报,一经查实,本站将立刻删除。