多元线性回归中的 R 分类 IV

如何解决多元线性回归中的 R 分类 IV

我的数据包括医院总支出、年龄、性别、住院时间和种族。当我将数据集从 excel 加载到 R 时，它们都是数字。所以我将性别（2 只猫）和种族（5 只猫）改为因子。

GENDERfac <- as.factor(hospital$GENDER)
RACEfac <- as.factor(hospital$RACE)

现在我需要建立一个多元线性回归，以使用其他变量作为预测变量来最好地预测医院支出。那么在分类 IV 的模型中，我应该使用它们的数值变量还是因子形式？

costmodel <- lm(formula= COST ~ AGE+GENDER+LOS+RACE,data=hospital)

或

costmodel <- lm(formula= hospital$COST ~ hospital$AGE + GENDERfac + hospital$LOS + RACEfac)

两者有什么区别？我知道使用因子变量，模型将返回该变量的每个类别的值。那样的话，解释会怎样？

RACEfac2       269.7343   408.6436   0.660 0.509563    
RACEfac3       641.3334   862.2531   0.744 0.457413 **   
RACEfac4       106.4079   458.4198   0.232 0.816557    
RACEfac5      1577.1875   908.2736   1.736 0.083201 .  
RACEfac6       -73.8266   566.3145  -0.130 0.896340

此外，如果该变量的少数类别显着而其他类别不显着，该怎么办？应该怎么解释？

解决方法

对于分类变量，您应该为每个类别创建虚拟变量，除了一个将成为您的参考类别。因此，您将为 Racefac2 创建一个新变量，如果该类别存在，则编码为 1，如果不存在，则编码为 0。为除参考类别之外的每个级别创建一个新变量。被省略的那一项记录在数据中，作为在所有虚拟变量中为零的行。

然后，您可以将这些可变系数中的每一个解释为与参考类别（即未包含在模型中的种族类别）相比的变化/差异。这是一篇描述此内容的简短论文

https://www.researchgate.net/profile/Hussain-Alkharusi/publication/256349393_Categorical_Variables_in_Regression_Analysis_A_Comparison_of_Dummy_and_Effect_Coding/links/004635225a56be9d11000000/Categorical-Variables-in-Regression-Analysis-A-Comparison-of-Dummy-and-Effect-Coding.pdf