如何解决机器学习相关
我有一个数据集,我对其进行了清理,现在在运行机器学习模型之前,我正在查看相关性。
我读过关于人的 r 相关性:
- |0.5|到 |1.00| = 强
- |0.3|到 |0.49| = 中级
- |0.0|到 |0.29| = 弱
我不明白一些事情:
独立列与独立列
独立列和从属列
解决方法
如果两列(特征)具有非常高的相关性,您确实可以删除其中之一,并且您将获得几乎相同或更好的结果。
处理数据中相关性的另一种方法是“白化”,例如 pca 或 zca,它不需要太多的手动检查。像这样,您还可以处理相关性小于 100% 的特征。
这将使您能够降低维度并摆脱特征之间的相关性,因此您需要不太强大的学习算法来获得相同或更好的结果。
版权声明:本文内容由互联网用户自发贡献,该文观点与技术仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌侵权/违法违规的内容, 请发送邮件至 dio@foxmail.com 举报,一经查实,本站将立刻删除。