微信公众号搜"智元新知"关注
微信扫一扫可直接关注哦!

机器学习相关

如何解决机器学习相关

我有一个数据集,我对其进行了清理,现在在运行机器学习模型之前,我正在查看相关性。

我读过关于人的 r 相关性:

  • |0.5|到 |1.00| = 强
  • |0.3|到 |0.49| = 中级
  • |0.0|到 |0.29| = 弱

我不明白一些事情:

独立列与独立列

  1. 如果我有很强的相关性,这是好事还是坏事?
  2. 强相关(不是完美的 1.0)是否意味着两列基本相同?
  3. 如果相关性好\坏,我应该删除两列中的一列吗?

独立列和从属列

  1. 如果我有很强的相关性,这是好事还是坏事?
  2. 如果相关性好\坏,我应该删除独立列吗?

解决方法

如果两列(特征)具有非常高的相关性,您确实可以删除其中之一,并且您将获得几乎相同或更好的结果。

处理数据中相关性的另一种方法是“白化”,例如 pca 或 zca,它不需要太多的手动检查。像这样,您还可以处理相关性小于 100% 的特征。

这将使您能够降低维度并摆脱特征之间的相关性,因此您需要不太强大的学习算法来获得相同或更好的结果。

版权声明:本文内容由互联网用户自发贡献,该文观点与技术仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌侵权/违法违规的内容, 请发送邮件至 dio@foxmail.com 举报,一经查实,本站将立刻删除。