微信公众号搜"智元新知"关注
微信扫一扫可直接关注哦!

数据集规模

如何解决数据集规模

要在数据集中缩放哪个变量

解决方法

我认为 this 从理论的角度回答了您的问题。

请记住,如果您想构建一个统计模型,您可能希望将数据分为训练集和测试集(可能还有验证集)。在这种情况下,你需要先独立缩放训练集,然后你可以根据训练集的均值和平均值缩放测试集!这是为了避免将信息从测试集“泄漏”到训练集。

从编码的角度来看[更适合 StackOverflow 的主题]:


# split 80-20 of training set and test set
p <- 0.8

# set seed for reproducibility
set.seed(1)
trn_rows <- sample(nrow(mtcars),nrow(mtcars) * p)

# training and test sets
trn <- mtcars[trn_rows,]
tst <- mtcars[-trn_rows,]

# calc mean and sd for each column of the training set
mean_trn <- apply(trn,2,mean)
sd_trn   <- apply(trn,sd)

# scale traing and test
trn_scaled <- scale(trn,center = mean_trn,scale = sd_trn)
tst_scaled <- scale(tst,scale = sd_trn)

版权声明:本文内容由互联网用户自发贡献,该文观点与技术仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌侵权/违法违规的内容, 请发送邮件至 dio@foxmail.com 举报,一经查实,本站将立刻删除。