相似性度量方法影响因素

现在探讨一下，相似性度量方法存在问题以及解决方法。

1. 冷热物品差异化

设想这样一种情况：两个用户同时评价了电影``Titanic''，但这对于推荐系统来讲，并没有提供多少有价值的信息，因为这部电影太火了，而如果两个用户对一个很冷门的电影做了评分，则这条记录提供的信息很有价值。即，让用户对有争议的物品达成共识，会比对广受欢迎的物品达成共识更有价值。

1. 方差因子法

以pearson 相关系数为例，通过增加一个方差权重因子，重新评估相关性。即pearson 相关系数可以表示成两个用户评分的协方差，其中评分经过z-score 变换(均值为0，标准差为1),变换公式为:

$z-score=\frac{x-\overline{x}}{sd(x)}~~~~~~(1)$

$sim_{u,v}=\frac{\sum_{i=1}^m(r_{u,i}-\overline{r_u})(r_{v,i}-\overline{r_v})}{\sigma_u\sigma_v}~~~~~~(2)$

那么，公式(2)可以改写为:

上式中，

$var_i=\frac{VAR_i-VAR_min}{VAR_max}~~~~~~(4)$

$VAR_min,VAR_max$

分别表示所有item评分的最小与最大方差。

$VAR_i=\frac{\sum_{u=1}^n(r_{u,i}-\overline{r_i})}{n-1}~~~~~~(5)$

那么，式(5)的目的是通过方差因子，增加高方差item的影响力，同时降低低方差item的影响力。从实验来看，改进后的效果有一定提升。

2. 反用户频率

通过对物品的评分进行变换，降低对广受欢迎物品有同样看法的相对重要性，这类似于信息检索领域突出的逆文档频率概念，这里称为反用户频率。

反用户频率指，对某个物品(item)，关注的用户越多，则其重要性就越低。

定义物品的反用户频率为:

$f_i=log\frac{n}{n_j}$

~~~~~~(6)

上式中,

$n_j$

代表，对物品j评过分的用户数，n代表用户总数。如果所有用户都评价过j，则

。

则，使用反用户频率的用户相似度计算方法:

$sim_{u,v}=\frac{\sum_{j}f_j\sum_{j}f_ju_jv_j-(\sum_{j}f_ju_j)(\sum_{j}f_jv_j))}{\sqrt{UV}}~~~~~~(7)$

其中:

$U=\sum_jf_j(\sum_{j}f_ju_j^2-(\sum_{j}f_ju_j)^2)~~~~~~(8)$

$V=\sum_jf_j(\sum_{j}f_jv_j^2-(\sum_{j}f_jv_j)^2)~~~~~~(9)$

2. 共同评分用户数

前文提到的相似性度量方法没有考虑到两位用户共同评分的物品数，事实上，基于近邻评分的预测方法在遇到当前用户只为非常少的共同物品评分时会导致极其不准确的预测结果。

1.赋权因子法

当两个用户共同评分物品数少于50的时候，二者的相似性权重调整为:

$sim(u,v)^{'}=sim(u,v)*weight~~~~~~(10)$

,其中

,n为用户u,v的共同评分物品数，当

的时候,weight=1。

这是一种基于线性化简相似度权值的简单方法，在用户共同评分物品小于50的时候，该方法的预测准确率提升非常明显，但是当评分数据集更小的时候，可能无法找到太多有50个共同评分物品的用户。

3. 数据稀疏

在推荐系统中，涉及到的用户评分矩阵往往非常稀疏，用户一般只会评价(或购买)少数物品。这种情况的挑战是，用相对较少的有效评分，得到较为准确的预测结果。

1. Additional Input source

在实际的环境中，除了用户评分这类显式反馈(explicit Feedback)信息之外，还有很多隐式的信息(implicit Feedback),如用户的购买、浏览、搜索记录等，这些信息不能直接提供诸如评分之类的信息，但可以从侧面反映用户对操作过的物品的偏好兴趣。比如一个用户买了很多同一作者的书，那么我们有理由认为该用户喜欢这个作者。
不同于显式反馈，隐式反馈主要有以下特点：
1. 没有负反馈。不像显式反馈，比如like 和dislike，隐式反馈仅提供正反馈，比如用户浏览了某商品，则认为用户对该商品在一定程度上感兴趣，而对于用户没有浏览的商品，并不能说明用户不感兴趣，可能仅仅用户没有注意到。
2. 反馈结果并不明确，只是对用户行为的一种猜测，这种结果包含诸多噪声。
3. 显式反馈中的数值，比如评分表示用户对物品的偏好(preference)，而隐式反馈的数值则表示置信度(confidence)，描述了用户动作(比如浏览)的频繁程度(frequency of actions)。
总结如图(1):