微信公众号搜"智元新知"关注
微信扫一扫可直接关注哦!

使用numpy / pandas和矩阵计算从头计算卡方统计量

如何解决使用numpy / pandas和矩阵计算从头计算卡方统计量

我只是看着https://en.wikipedia.org/wiki/Chi-squared_test,并想重新创建示例“ 用于分类数据的示例卡方检验”。

我觉得我所采用的方法可能还有改进的余地,所以想知道如何实现。

这是代码

Lines <- "x       y
19.005  5.49
18.19   6
19.59   5.885
19.93   8.96
17.615  13.85
18.795  2.72
19.11   8.09
19.885  8.11
15.76   6.66
16.48   6.27
15.805  5.375
15.825  3.06
15.985  7.795
15.755  6.255
15.485  5.925
15.475  9.925
16.45   6.055
16.285  5.24
15.92   11.15
16.775  5.57
16.075  3.275
16.475  5.635
16.825  4.72
16.28   2.035
17.26   6.07
17.245  4.9
17.98   8.06
17.35   6.94
18.22   7.8
16.27   12.2
17.555  7.335
16.98   5.76
17.415  7.51
17.5    6.18"
DF <- read.table(text = Lines,header = TRUE)

这返回正确的值,但可能不知道使用某些特定的numpy / pandas方法更好的方法

解决方法

使用 numpy/scipy:

csv = """\,A,B,C,D
White collar,90,60,104,95
Blue collar,30,50,51,20
No collar,40,45,35
"""

import io
from numpy import genfromtxt,outer
from scipy.stats.contingency import margins

observed = genfromtxt(io.StringIO(csv),delimiter=',',skip_header=True,usecols=range(1,5))
row_sums,col_sums = margins(observed)
expected = outer(row_sums,col_sums) / observed.sum()
chi_squared_stat = ((observed - expected)**2 / expected).sum()

print(chi_squared_stat)

与熊猫:

import io
import pandas as pd

csv = """\
work_group,35
"""
df = pd.read_csv(io.StringIO(csv))

df_melt = df.melt(id_vars ='work_group',var_name='group',value_name='observed')
df_melt['col_sum'] = df_melt.groupby('group')['observed'].transform(np.sum)
df_melt['row_sum'] = df_melt.groupby('work_group')['observed'].transform(np.sum)
total = df_melt['observed'].sum()

df_melt['expected'] = df_melt.apply(lambda row: row['col_sum']*row['row_sum']/total,axis=1)
chi_squared_stat = df_melt.apply(lambda row: ((row['observed'] - row['expected'])**2) / row['expected'],axis=1).sum()

print(chi_squared_stat)

版权声明:本文内容由互联网用户自发贡献,该文观点与技术仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌侵权/违法违规的内容, 请发送邮件至 dio@foxmail.com 举报,一经查实,本站将立刻删除。