如何解决如何使用python计算两个不同长度的连续随机样本之间的距离相似性?
我想计算两个样本集之间的相似度或距离。
每组指示用户的游戏时间。
例如,假设有两个用户,第一个用户(X1)玩了五次,另一个用户玩了四次,如下所示。
X1={1,2,3,1,2}
X2={1,4}
我想使用 python 计算 X1
和 X2
之间的相似度或距离。
如何计算?
注意 1. 顺序并不重要。
我的意思是,{1,4} 和 {4,3} 应该被视为同一个集合。
注意 2. 元素(即 1、2、3、4)不是固定的。我的意思是,播放时间是一个连续变量。
解决方法
好吧,您可以使用 Kolmogorov-Smirnov 2 样本测试,来自 https://docs.scipy.org/doc/scipy/reference/generated/scipy.stats.ks_2samp.html,描述 here
它应该适用于不同大小的样本。
在 Python 中,例如
import scipy.stats as st
x = np.random.normal(0,1,1000)
y = np.random.normal(0,1000)
z = np.random.normal(1.1,0.9,1000)
st.ks_2samp(x,y)
st.ks_2samp(x,z)
它返回 D 统计信息(以及 p 值),它是两个样本的 CDF 之间的绝对最大距离(最高)。这是你的距离。详情见here
版权声明:本文内容由互联网用户自发贡献,该文观点与技术仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌侵权/违法违规的内容, 请发送邮件至 dio@foxmail.com 举报,一经查实,本站将立刻删除。