微信公众号搜"智元新知"关注
微信扫一扫可直接关注哦!

具有许多小值和一些极值的数据集的线性回归的替代方法

如何解决具有许多小值和一些极值的数据集的线性回归的替代方法

我想根据今年的药物数据(药物代码)、年龄、性别和今年的费用为一组患者建立明年的药物成本模型。

我使用了线性回归并得到了 0.69 的 R^2,这非常好。当我根据当年的费用金额将患者分成相同规模的 5 组时,我可以看到底部 80% 的表现非常差,而顶部 20% 的得分为 0.71,弥补了这一点。

80% 的人的成本大约在 500 欧元以下,而那些成本高的人则成本极高,高达 500.000 欧元。

我认为,由于线性回归想要最小化残差,因此用仍然相对较小的残差预测底部成本并没有像最小化高成本那样带来那么多的收益。

是否有替代模型在这种情况下更有用以更好地预测小成本?

解决方法

您需要考虑变量与模型中所需属性之间的关系。您的模型是否必须在所有变量上都是连续的?您能否根据患者成本在两个模型上拟合决策树?您需要一种方法来以不同的方式表达这两类人。

我的直接倾向是建议一个决策树,然后是两个不同的线性回归,但这可能没有您想要的连续和封闭形式的解决方案。

要获得平滑的解决方案,您可以进行加权线性回归,在这种回归中,您对某些错误的惩罚比其他错误少/多。

您还需要考虑 R^2 是否是最佳指标。你是否同样​​关心所有的例子?你在预测什么?一个例子的错误会使另一个相形见绌吗?

,

这看起来像是异方差的标准情况,其中方差随预期均值而增加。

一些选择:

  • 使用 WLS 并根据预测值或某些预测变量使用权重。
  • 变换因变量,例如log(y) 并估计对数正态模型
  • 使用平均方差增加的分布,例如
    泊松的方差等于均值。我们需要对连续变量使用拟泊松。 Gamma 的方差为均值的二次方。
    这些分布通常在 GLM 中实现。

另外,检查解释变量和因变量之间是否存在非线性关系。
例如,广义线性模型使用链接函数将预测保持在因变量分布的域中,例如可以使用指数均值函数(对数链接)对非负值进行建模。

版权声明:本文内容由互联网用户自发贡献,该文观点与技术仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌侵权/违法违规的内容, 请发送邮件至 dio@foxmail.com 举报,一经查实,本站将立刻删除。