微信公众号搜"智元新知"关注
微信扫一扫可直接关注哦!

目标因变量是连续的,但自变量是分类的

如何解决目标因变量是连续的,但自变量是分类的

我正在处理一个数据集,其中我的因变量是连续的,但我的所有自变量都是分类的(非二进制)。我尝试了一种热编码或创建了虚拟变量。我得到的 R2 较低,约为 0.4,但调整后的 R2 较高,约为 0.9。然而,我在回归图和残差图中得到了垂直线,即使我的 QQ 线似乎适合一条直线,最后有一些重尾。那么我可以知道回归模型是否是在这种情况下使用的正确方法吗?如果是肯定的,应该如何分析这些图,如果否定,还有哪些其他方法和库可以用来产生更好的结果?

enter image description here

enter image description here

解决方法

我尝试在下面解决您的一些问题:

但是我在回归图中得到了垂直线和残差 情节

如果您的所有自变量 (IV) 都是分类变量,则这是预期的。每个类别都编码为二进制,每个观察的预测将是每个类别的组合。为了简单说明,想象一个由 2 个二元变量进行的预测,只能有 4 个结果(0/0、0/1、1/0、1/1)......如果你将其扩展到许多二元变量,你会看到一种离散预测。

换句话说,没有斜率可言,因此您不应看到连续预测。您可以阅读有关 regression with categories here

的更多信息

尽管我的QQ线似乎与一些 最后是沉重的尾巴。所以我可以知道回归模型是否正确 在这种情况下使用的方法?

是的,您仍然可以使用线性模型。

如果是肯定的,应该如何分析这些图,如果不是,怎么分析 是其他方法和库可以用来产生一个 更好的结果?

除了您没有进行推理之外,您所拥有的内容基本上类似于方差分析。您可以使用 levene test 或其他 similar test 检查方差的同质性。当您有大量观察时,这些测试可能非常敏感。看看你的 qq 图,它看分位数,我认为它很好。

版权声明:本文内容由互联网用户自发贡献,该文观点与技术仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌侵权/违法违规的内容, 请发送邮件至 dio@foxmail.com 举报,一经查实,本站将立刻删除。