微信公众号搜"智元新知"关注
微信扫一扫可直接关注哦!

如何使用python计算两个不同长度的连续随机样本之间的距离相似性?

如何解决如何使用python计算两个不同长度的连续随机样本之间的距离相似性?

我想计算两个样本集之间的相似度或距离。
每组指示用户的游戏时间。
例如,假设有两个用户,第一个用户(X1)玩了五次,另一个用户玩了四次,如下所示。

X1={1,2,3,1,2}
X2={1,4}

我想使用 python 计算 X1X2间的相似度或距离。 如何计算?

注意 1. 顺序并不重要。
我的意思是,{1,4} 和 {4,3} 应该被视为同一个集合。

注意 2. 元素(即 1、2、3、4)不是固定的。我的意思是,播放时间是一个连续变量。

解决方法

好吧,您可以使用 Kolmogorov-Smirnov 2 样本测试,来自 https://docs.scipy.org/doc/scipy/reference/generated/scipy.stats.ks_2samp.html,描述 here

它应该适用于不同大小的样本。

在 Python 中,例如

import scipy.stats as st    

x = np.random.normal(0,1,1000)
y = np.random.normal(0,1000)
z = np.random.normal(1.1,0.9,1000)

st.ks_2samp(x,y)
st.ks_2samp(x,z)

它返回 D 统计信息(以及 p 值),它是两个样本的 CDF 之间的绝对最大距离(最高)。这是你的距离。详情见here

版权声明:本文内容由互联网用户自发贡献,该文观点与技术仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌侵权/违法违规的内容, 请发送邮件至 dio@foxmail.com 举报,一经查实,本站将立刻删除。