具有许多小值和一些极值的数据集的线性回归的替代方法

我想根据今年的药物数据（药物代码）、年龄、性别和今年的费用为一组患者建立明年的药物成本模型。

我使用了线性回归并得到了 0.69 的 R^2，这非常好。当我根据当年的费用金额将患者分成相同规模的 5 组时，我可以看到底部 80% 的表现非常差，而顶部 20% 的得分为 0.71，弥补了这一点。

80% 的人的成本大约在 500 欧元以下，而那些成本高的人则成本极高，高达 500.000 欧元。

我认为，由于线性回归想要最小化残差，因此用仍然相对较小的残差预测底部成本并没有像最小化高成本那样带来那么多的收益。

是否有替代模型在这种情况下更有用以更好地预测小成本？

您需要考虑变量与模型中所需属性之间的关系。您的模型是否必须在所有变量上都是连续的？您能否根据患者成本在两个模型上拟合决策树？您需要一种方法来以不同的方式表达这两类人。

我的直接倾向是建议一个决策树，然后是两个不同的线性回归，但这可能没有您想要的连续和封闭形式的解决方案。

要获得平滑的解决方案，您可以进行加权线性回归，在这种回归中，您对某些错误的惩罚比其他错误少/多。

您还需要考虑 R^2 是否是最佳指标。你是否同样关心所有的例子？你在预测什么？一个例子的错误会使另一个相形见绌吗？

这看起来像是异方差的标准情况，其中方差随预期均值而增加。

一些选择：

另外，检查解释变量和因变量之间是否存在非线性关系。
例如，广义线性模型使用链接函数将预测保持在因变量分布的域中，例如可以使用指数均值函数（对数链接）对非负值进行建模。