推荐系统相似性计算

推荐系统中常用的相似度计算方法。

1. pearson correlation coefficient

计算两个变量之间存在的线性关系(积矩相关系数)

$\rho_{(X,Y)}=\frac{cov(X,Y)}{\sigma_x \sigma_y}=\frac{\sum(X-\overline{X}(Y-\overline{Y})}{\sqrt{\sum(X-\overline{X})^2\sum(Y-\overline{Y})^2}}~~~~~~(1)$

该式计算简单，但必须满足一定的条件(依赖于线性回归模型):

1. 两个变量之间有线性关系;

这个可以通过变量之间的散点图看出来。

2. 变量是连续变量;

3. 变量均符合正态分布,且二元分布也符合正态分布;

这个可以通过R 语言的shapiro.test命令进行检验，P值大于0.05说明数据是正态的。

4. 两个变量独立。

则基于pearson 相关系数的用户之间相似度公式：

$sim_{u,v}=\frac{\sum_{i=1}^m(r_{u,i}-\overline{r_u})(r_{v,i}-\overline{r_v})}{\sigma_u\sigma_v}~~~~~~(2)$

基于皮尔森相关系数的相似度有两个缺点：

(1) 没有考虑（take into account）用户间重叠的评分项数量对相似度的影响；

(2) 如果两个用户之间只有一个共同的评分项，相似度也不能被计算。

2. spearman rank correlation coefficient

当待分析的数据不满足上述四个条件的时候，可以考虑使用秩相关(rank correlation)，也称为等级相关的方法来描述两个变量之间的关联程度。

假设两个随机变量分别为X、Y（也可以看做两个集合），它们的元素个数均为N，两个随即变量取的第

$i(1<=i<=N)$

个值分别用

表示。对X、Y进行排序（同时为升序或降序），得到两个元素排行集合x、y，其中元素

分别为

在X中的排行以及

在Y中的排行。将集合x、y中的元素对应相减得到一个排行差分集合d，其中

。随机变量X、Y之间的斯皮尔曼等级相关系数可以由x、y或者d计算得到。

由排行差分集合d计算而得:

$\rho=1-\frac{\sum_{i=1}^N d_i^2}{N(N^2-1)}~~~~~~(3)$

斯皮尔曼相关度的计算舍弃了一些重要信息，即真实的评分值。但它保留了用户喜好值的本质特性——排序（ordering），它是建立在排序（或等级，Rank）的基础上计算的。

基于spearman等级相关系数的用户之间相似度公式为:

$sim_{u,v}=\frac{\sum_{i=1}^m(rank_{u,i}-\overline{rank_u})(rank_{v,i}-\overline{rank_v})}{\sigma_u\sigma_v}~~~~~~(4)$

上式中，

$rank_{u,i}$

代表用户u对物品i的评分在该用户所有评分中的排名(正序or逆序),

代表用户u的平均评分在所有用户平均评分中的排名。

一般来说，对于基于最近邻的相似度计算中，如果近邻用户在(50-100)之间，则pearson相关系数得到的结果与spearman相关系数得到的结果的准确性(MAE)基本一致[1]。

但是它的执行效率不是非常高，因为斯皮尔曼相关性的计算需要花时间计算并存储喜好值的一个排序（Ranks），具体时间取决于数据的数量级大小。正因为这样，斯皮尔曼相关系数一般用于学术研究或者是小规模的计算。
3. vector similarity ``cosine'' measure，即余弦相似度

这种度量标准，使用两个n维向量之间的夹角来计算相似度。在推荐系统中，将两个物品a、b的评分用对应的评分向量(

$\overrightarrow{a},\overrightarrow{b}$