微信公众号搜"智元新知"关注
微信扫一扫可直接关注哦!

常用相似性、相关性度量指标

  本文将介绍一些数据挖掘、机器学习、信息检索等领域中常用的一些相似性、相关性度量指标:

(1)Euclidean distance(欧几里德距离、欧氏距离)

         设有两个向量

         它们之间的Euclidean distance为:

         

,值越小越相似。


(2)Manhattan distance(曼哈顿距离)

         设有两个向量

         它们之间的Manhattan distance为:

              

,值越小越相似。


(3)Minkowsk distance闵可夫斯基距离)

         设有两个向量

         它们之间的Minkowsk distance为:

         

,值越小越相似。


(4)Hamming distance海明距离)

          Hamming distance可以用来度量两个串(通常是二进制串)的距离,其定义为这两个二进制串对应的位有几个不一样,那么海明距离就是几,值越小越相似。例如x=1010,y=1011,那么x和y的海明距离就是1。又如x=1000,y=1111,那么x和y的海明距离就是3。


(5)Jaccard CoefficientJaccard 系数

         Jaccard Coefficient用来度量两个集合的相似度,设有两个集合

,它们之间的Jaccard Coefficient定义为:

         

,值越大越相似。

          例如

,则


(6)Pearson Correlation Coefficient(皮尔森相关系数

         设有两个向量

         它们之间的Pearson Correlation Coefficient为:

         

,值越大越相关。


(7)Cosine Similarity余弦相似度

         设有两个向量

         它们之间的Cosine Similarity为:

               

,值越大越相似。


(8)Mahalanobis distance(马氏距离)

         设有两个向量

         它们之间的Mahalanobis distance为:

         

,值越小越相似。

          其中

为x和y的协方差矩阵。


(9)Kullback-Leibler divergence(KL散度)

           KL散度用来度量两个分布之间的距离,分布P和分布Q的KL散度定义为:

          

,值越小,两个分布就越相似。


(10)PMI (Pointwise Mutual information,点对互信息)

          PMI利用co-occurance来衡量两个东西x和y的相似度,定义为:

          

,值越大越相关。

          其中

为x,y一起出现的概率,

为x出现的概率,

为y出现的概率。


(11)NGD(normalized Google distance

           NGD可以用来度量两个东西x和y间的相关性,作用和PMI有点类似,定义为:

          

,值越大越相关。
                 其中

是x在文档集中出现的频率,

是y在文档集中出现的频率,

是x,y在文档集中一起出现的频率,

是文档集的大小。

版权声明:本文内容由互联网用户自发贡献,该文观点与技术仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌侵权/违法违规的内容, 请发送邮件至 dio@foxmail.com 举报,一经查实,本站将立刻删除。

相关推荐