微信公众号搜"智元新知"关注
微信扫一扫可直接关注哦!

计算分类变量的 p_values 给了我 Nans如何解决这个问题?

如何解决计算分类变量的 p_values 给了我 Nans如何解决这个问题?

所以我已经尝试了一段时间了。我有这个只有分类变量的矩阵,我有标签编码。通过此函数计算 p_values 时,甚至使用 scipy 的 chisquare 方法计算时,我都会得到 NaN 数组。

我拥有的 p_value 函数是:

从 scipy.stats.mstats 导入 spearmanr 将熊猫导入为 pd

def calculate_pvalues(df):
    df = df.dropna()._get_numeric_data()
    dfcols = pd.DataFrame(columns=df.columns)
    pvalues = dfcols.transpose().join(dfcols,how='outer')
    for r in df.columns:
        for c in df.columns:
            pvalues[r][c] = round(spearmanr(df[r],df[c])[1],4)
    return pvalues

用于计算相关性:我正在使用内置的 Pandas 函数

correlations = new.corr('spearman')

All I get is a matrix like this: 本质上是一个 NaN 数组。相关矩阵本身看起来不错,但我在使用卡方或这个 p_value 函数来计算 p_values 时遇到了问题。

附加问题:如果我有一个包含分类变量和连续变量的 Pandas 数据框,我是否可以计算所有 p_values 变量的相关性?

版权声明:本文内容由互联网用户自发贡献,该文观点与技术仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌侵权/违法违规的内容, 请发送邮件至 dio@foxmail.com 举报,一经查实,本站将立刻删除。