微信公众号搜"智元新知"关注
微信扫一扫可直接关注哦!

多元线性回归中的 R 分类 IV

如何解决多元线性回归中的 R 分类 IV

我的数据包括医院总支出、年龄、性别、住院时间和种族。当我将数据集从 excel 加载到 R 时,它们都是数字。所以我将性别(2 只猫)和种族(5 只猫)改为因子。

GENDERfac <- as.factor(hospital$GENDER)
RACEfac <- as.factor(hospital$RACE)

现在我需要建立一个多元线性回归,以使用其他变量作为预测变量来最好地预测医院支出。那么在分类 IV 的模型中,我应该使用它们的数值变量还是因子形式?

costmodel <- lm(formula= COST ~ AGE+GENDER+LOS+RACE,data=hospital)

costmodel <- lm(formula= hospital$COST ~ hospital$AGE + GENDERfac + hospital$LOS + RACEfac)

两者有什么区别?我知道使用因子变量,模型将返回该变量的每个类别的值。那样的话,解释会怎样?

RACEfac2       269.7343   408.6436   0.660 0.509563    
RACEfac3       641.3334   862.2531   0.744 0.457413 **   
RACEfac4       106.4079   458.4198   0.232 0.816557    
RACEfac5      1577.1875   908.2736   1.736 0.083201 .  
RACEfac6       -73.8266   566.3145  -0.130 0.896340   

此外,如果该变量的少数类别显着而其他类别不显着,该怎么办?应该怎么解释?

解决方法

对于分类变量,您应该为每个类别创建虚拟变量,除了一个将成为您的参考类别。因此,您将为 Racefac2 创建一个新变量,如果该类别存在,则编码为 1,如果不存在,则编码为 0。为除参考类别之外的每个级别创建一个新变量。被省略的那一项记录在数据中,作为在所有虚拟变量中为零的行。

然后,您可以将这些可变系数中的每一个解释为与参考类别(即未包含在模型中的种族类别)相比的变化/差异。这是一篇描述此内容的简短论文

https://www.researchgate.net/profile/Hussain-Alkharusi/publication/256349393_Categorical_Variables_in_Regression_Analysis_A_Comparison_of_Dummy_and_Effect_Coding/links/004635225a56be9d11000000/Categorical-Variables-in-Regression-Analysis-A-Comparison-of-Dummy-and-Effect-Coding.pdf

版权声明:本文内容由互联网用户自发贡献,该文观点与技术仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌侵权/违法违规的内容, 请发送邮件至 dio@foxmail.com 举报,一经查实,本站将立刻删除。