微信公众号搜"智元新知"关注
微信扫一扫可直接关注哦!

为什么可以从数据集中删除低方差的变量

如何解决为什么可以从数据集中删除低方差的变量

数据分析中的常见做法是删除低方差特征(自变量)以进行降维,理由是低方差特征不能解释响应变量(因变量)中的大部分方差。

然而,我并不完全理解这个推理。 这是一个反例(在 R 语法中):

 > independent_variable <- c(100000,100000.01,100000.02,100000.03,100000.04,100000.05 )
 > dependent_variable  <- c(1,2,3,4,5,6)
 > cor(independent_variable,dependent_variable)
 [1] 1          #pearsons correlation = 1
 > var(independent_variable )
 [1] 0.00035     
 > var(dependent_variable)
 [1] 3.5        # low variance of independent variable compared to dependent variable
 > var(independent_variable/mean(independent_variable))
 3.499998e-14   # very low variance
 > var(dependent_variable/mean(dependent_variable))
 [1] 0.2857143  # variance of scaled variables with mean=1
 

在这个例子中试图展示的情况是,因变量和自变量的相关性=1,即自变量解释了因变量的 100% 方差,然而,在原始变量和均值中=1 标度变量,自变量的方差远低于其他变量(在本例中为因变量)的方差,因此根据此推理将其删除

在这里想念什么?

版权声明:本文内容由互联网用户自发贡献,该文观点与技术仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌侵权/违法违规的内容, 请发送邮件至 dio@foxmail.com 举报,一经查实,本站将立刻删除。