微信公众号搜"智元新知"关注
微信扫一扫可直接关注哦!

估计Python中的相关性

如何解决估计Python中的相关性

我有一个带有标签用户名的数据集:

Labels   Usernames
1         Londonderry
1         Londoncalling
1          Steveonder43
0         Maryclare_re
1         Patent107391
0         Anonymous 
1         _24londonqr
... 

我需要证明包含伦敦字的用户名标签1之间存在关联。为此,我创建了第二个标签以查看伦敦字在哪里

for idx,username in df['Usernames']:
    if 'London' in username:
        df['London'].iloc[idx] = 1
    else:
        df['London'].iloc[idx] = 0

然后,我使用Pearson相关系数比较了这些二进制变量:

import scipy.stats.pearsonr as rho
corr = rho(df['labels'],df['London'])

但是它不起作用。 我在上述步骤中缺少什么吗?

解决方法

您的数据框中有Labels,但是您通过了labels,我也通过contains增强了代码

df['London'] = df['Usernames'].str.contains('London').astype(int)
from scipy import stats
stats.pearsonr(df['Labels'],df['London'])
Out[12]: (0.4,0.37393392381774704)

版权声明:本文内容由互联网用户自发贡献,该文观点与技术仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌侵权/违法违规的内容, 请发送邮件至 dio@foxmail.com 举报,一经查实,本站将立刻删除。