微信公众号搜"智元新知"关注
微信扫一扫可直接关注哦!

主成分分析 - 是否删除特征?

如何解决主成分分析 - 是否删除特征?

当我将 PCA 应用于我的数据集时,PC1 仅占 25% 的变异,而 PC2 占约 22%。

当我应用随机森林或任何其他机器学习模型时,我是否仍然根据 PCA 输出否定一些轻度相关的变量?或者只有当 PC1 和 PC2 解释了数据集中 80% 的变异时才应该这样做?

解决方法

我不确定我是否清楚地了解了您的问题。无论如何,我猜您想使用 PCA 来提高模型的性能:因此,您应该尝试不同的值并保持组件的数量最大化验证集上考虑的指标(可能通过交叉验证),几乎独立于解释方差的实际数值。后者可以让您很好地了解正确的数字可能是多少,但对于监督学习而言,根据您的特定数据集尝试和选择更有意义。

如果您的意思是可以根据 PCA 的结果丢弃原始特征,那么答案肯定是否定的。相对于原始特征,主成分“存在”在不同的空间中,您无法直接说出每个成分由哪些特征组成。如果您想从 PCA 中获得一些东西,您必须对 组件 执行后续的训练/预测,而忘记原始特征。

版权声明:本文内容由互联网用户自发贡献,该文观点与技术仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌侵权/违法违规的内容, 请发送邮件至 dio@foxmail.com 举报,一经查实,本站将立刻删除。