如何解决如何在python数据框中找到值的组合相关性?
是python的新手,试图理解数据操作
我有一个数据框-
Reprex
PIN RCID SSCID SubID
2500001 21926367 9 168
2500001 21932487 10 168
2500001 21903111 24 168
2500002 21918207 9 168
2500002 21995727 10 168
2500002 21997767 24 168
2500003 14809466 9 165
2500003 22583655 10 165
2500003 22554279 24 165
我正在尝试-每次PIN都包含sscid组合时。它与一个Sub ID关联多少次。例如,在这种情况下,当您看到具有完全相同的SSCID的3个PIN中的3时,我们就会看到3分之2的SubId再次出现。这意味着存在66%的相关性。 我该怎么办?
我试图对此进行编码:
import pandas as pd
scale = reprex.SSCID.max() + 1
onehot = []
for PIN,SSCID in df.groupby('PIN').SSCID:
ssc_list = SSCID.to_list()
onehot.append([PIN,''.join(['1' if i in ssc_list else '0' for i in range(1,scale)])])
onehot = pd.DataFrame(onehot,columns=['PIN','onehot'])
print(onehot)
但是我没有得到想要的输出的有效输出。
版权声明:本文内容由互联网用户自发贡献,该文观点与技术仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌侵权/违法违规的内容, 请发送邮件至 dio@foxmail.com 举报,一经查实,本站将立刻删除。