如何解决为什么我们可以对二进制向量使用 phi 系数?
我有一个包含数字列和二进制向量的数据库。我正在尝试为这些找出合适的相关矩阵……我不确定哪个单一相关度量最适合。然而,我读到的是 phi 系数适用于二进制向量。
我下载了生成 phi 矩阵的 Pandas Profiler,但是范围在 0 和 1 之间。它不应该在 -1 和 1 之间吗?其中 1 表示两个变量彼此正相关,-1 表示它们负相关(因此它们不会;落在对角线上)。
或者我可以对我的所有数据使用 pearsons 相关性,因为 pearsons = phi 在二进制值下...
- 我应该只使用 pearsons 吗?
- 我应该使用什么阈值来省略变量,例如如果我发现 2 个变量的相关性为 0.8,我应该开始削减变量
- 当两个变量高度相关时,我应该删除哪一个?
版权声明:本文内容由互联网用户自发贡献,该文观点与技术仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌侵权/违法违规的内容, 请发送邮件至 dio@foxmail.com 举报,一经查实,本站将立刻删除。