如何解决多元线性回归中的 R 分类 IV
我的数据包括医院总支出、年龄、性别、住院时间和种族。当我将数据集从 excel 加载到 R 时,它们都是数字。所以我将性别(2 只猫)和种族(5 只猫)改为因子。
GENDERfac <- as.factor(hospital$GENDER)
RACEfac <- as.factor(hospital$RACE)
现在我需要建立一个多元线性回归,以使用其他变量作为预测变量来最好地预测医院支出。那么在分类 IV 的模型中,我应该使用它们的数值变量还是因子形式?
costmodel <- lm(formula= COST ~ AGE+GENDER+LOS+RACE,data=hospital)
或
costmodel <- lm(formula= hospital$COST ~ hospital$AGE + GENDERfac + hospital$LOS + RACEfac)
两者有什么区别?我知道使用因子变量,模型将返回该变量的每个类别的值。那样的话,解释会怎样?
RACEfac2 269.7343 408.6436 0.660 0.509563
RACEfac3 641.3334 862.2531 0.744 0.457413 **
RACEfac4 106.4079 458.4198 0.232 0.816557
RACEfac5 1577.1875 908.2736 1.736 0.083201 .
RACEfac6 -73.8266 566.3145 -0.130 0.896340
此外,如果该变量的少数类别显着而其他类别不显着,该怎么办?应该怎么解释?
解决方法
对于分类变量,您应该为每个类别创建虚拟变量,除了一个将成为您的参考类别。因此,您将为 Racefac2 创建一个新变量,如果该类别存在,则编码为 1,如果不存在,则编码为 0。为除参考类别之外的每个级别创建一个新变量。被省略的那一项记录在数据中,作为在所有虚拟变量中为零的行。
然后,您可以将这些可变系数中的每一个解释为与参考类别(即未包含在模型中的种族类别)相比的变化/差异。这是一篇描述此内容的简短论文
版权声明:本文内容由互联网用户自发贡献,该文观点与技术仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌侵权/违法违规的内容, 请发送邮件至 dio@foxmail.com 举报,一经查实,本站将立刻删除。