微信公众号搜"智元新知"关注
微信扫一扫可直接关注哦!

如何解释热图或一般情况下上的负相关?

如何解决如何解释热图或一般情况下上的负相关?

这是 StackExchange 的交叉帖子。

我目前正在对常见的 kaggle Titanic 生存率竞赛进行一些初步的探索性数据分析,并想知道如何解释我在下面制作的以下热图相关图。

我理解正相关(与 pearson r 系数有关)——因为随着 X 的增加,Y 也增加,并且越接近 +1,表明存在很强的正线性关系。

但是对于负相关值,我很困惑,因为根据我的理解(这可能是错误的,如果是这样,请纠正我)关系是颠倒的 - 因此随着 X 的增加 Y 趋于减少,这意味着值是否接近 -1那么这是一个很强的负线性关系。

我正在为如何从下面的热图中解释这一点而苦苦挣扎。包含我尝试预测的二元结果的特征是 Survived 特征。其余列是用于预测的数字列。

在这里我们可以看到 Age/Survived = -0.06 和 SibSp/Survived = -0.03

我该如何解释?我说以下是否正确:

  • 随着年龄的降低,存活率增加(弱负相关)
  • 随着 SibSp 的减少,存活率增加(弱负相关)

附带说明一下,如果值是 -0.90 与 -1 如此接近 - 我该如何正确地解释解释,例如:年龄减少然后存活率增加

Correlation Plot with Survival Being the class to predict

解决方法

您基本上是正确的,但您认为接近零相关性的意义太大了。

首先,您需要记住这个皮尔逊相关线性相关。 这意味着 X 和 Y 就像一条直线,具有正斜率具有 Corr=1,具有负斜率具有 Corr=-1

如果还有y = X^2这样的其他字符串相关性,pearson的相关性就会很差,容易产生误导。

至于您的结果,survivedSibSp 之间的 -0.035 相关性如此低,我会说这些特征是几乎不相关(在线性意义上)。

如果是-0.9,我会说显着,虽然幸存者的数量在增加,但SibSp却呈强线性下降关系。

版权声明:本文内容由互联网用户自发贡献,该文观点与技术仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌侵权/违法违规的内容, 请发送邮件至 dio@foxmail.com 举报,一经查实,本站将立刻删除。