如何使用python计算两个不同长度的连续随机样本之间的距离相似性？

如何解决如何使用python计算两个不同长度的连续随机样本之间的距离相似性？

我想计算两个样本集之间的相似度或距离。
每组指示用户的游戏时间。
例如，假设有两个用户，第一个用户（X1）玩了五次，另一个用户玩了四次，如下所示。

X1={1,2,3,1,2}
X2={1,4}

我想使用 python 计算 X1 和 X2 之间的相似度或距离。如何计算？

注意 1. 顺序并不重要。
我的意思是，{1,4} 和 {4,3} 应该被视为同一个集合。

注意 2. 元素（即 1、2、3、4）不是固定的。我的意思是，播放时间是一个连续变量。

解决方法

好吧，您可以使用 Kolmogorov-Smirnov 2 样本测试，来自 https://docs.scipy.org/doc/scipy/reference/generated/scipy.stats.ks_2samp.html，描述 here

它应该适用于不同大小的样本。

在 Python 中，例如

import scipy.stats as st    

x = np.random.normal(0,1,1000)
y = np.random.normal(0,1000)
z = np.random.normal(1.1,0.9,1000)

st.ks_2samp(x,y)
st.ks_2samp(x,z)

它返回 D 统计信息（以及 p 值），它是两个样本的 CDF 之间的绝对最大距离（最高）。这是你的距离。详情见here