微信公众号搜"智元新知"关注
微信扫一扫可直接关注哦!

具有多个二元变量的回归?

如何解决具有多个二元变量的回归?

我是数据科学领域的新手,我正在尝试用 R 开发一个小程序,我想用它来预测香水(香水)。 我已经创建了一个包含我自己所有香水的数据集,其中我将一些属性作为列,例如酸橙、香草、鸢尾等香水的香调。所有这些都是二元变量,对于每种香水,我都指定了一个“喜欢”连续值个人在 0-10 的范围内。 如何使用所有这些二元变量对连续变量(如)进行回归。我想我必须使用与注释一样多的虚拟变量。但是我在预测阶段遇到了一些问题。我通过将所有变量作为因子来拟合模型。 我想通过预测 1 个新行的“喜欢”来测试它。但当然,这条新线只会有一些 0 或 1。所以它回答我,训练和测试集具有不同数量的因子水平(训练中为 2,测试中为 1)。 我该如何解决

解决方法

这有点猜测,但我认为您正在寻找的是明确设置测试集中的所有因子水平:

for (x in note_names) { 
     levels(test[[x]]) <- c("no","yes")}
}

虽然通常最佳实践是使用因子而不是虚拟变量或整数代码来表示 R 中的分类变量(这就是它们的用途,这意味着您没有要记住或有一个单独的代码书来知道例如 1=male,2=female),在这种情况下,我认为您最好将“缺席”编码为 0,将“存在”编码为 1 - 这就是任何统计/ML方法会将您的分类变量转换为任何方式,而且这是明确的。

版权声明:本文内容由互联网用户自发贡献,该文观点与技术仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌侵权/违法违规的内容, 请发送邮件至 dio@foxmail.com 举报,一经查实,本站将立刻删除。