如何解决用于对 python 中的所有分类变量进行详尽的 Chi-squred 和 anova 测试的函数
我正在研究一个包含分类变量和数值变量的数据集。我想找到变量中的相关性,如果它们是巨大的相关性,我想删除相关特征之一。我知道熊猫 data.corr()
只能用于数值变量和分类变量,只有 2 个值为 0 或 1。如果我想找到分类变量和分类变量之间的相关性,我知道我会有分别使用卡方检验和方差分析。我发现 pandas 和 scipy 有计算分类特征和要预测的标签之间关系的 API。但这仅提供了关于分类变量和要预测的标签的想法。
from sklearn.feature_selection import chi2
X = churn_df.drop('Exited',axis=1)
y = churn_df['Exited']
chi_scores = chi2(X,y)
print(chi_scores)
是否有任何用于卡方和方差分析的函数或 API 可以提供所有分类变量的详尽相关列表,就像 pandas data.corr()
对所有数值变量所做的那样。基于分类变量的相关性,我想放弃它们。
版权声明:本文内容由互联网用户自发贡献,该文观点与技术仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌侵权/违法违规的内容, 请发送邮件至 dio@foxmail.com 举报,一经查实,本站将立刻删除。