技术频道

公众号推荐

微信公众号搜"智元新知"关注
微信扫一扫可直接关注哦！

常用相似性、相关性度量指标

时间：2020-10-21分类：大数据作者：编程之家AI导航网

本文将介绍一些数据挖掘、机器学习、信息检索等领域中常用的一些相似性、相关性度量指标：

（1）Euclidean distance（欧几里德距离、欧氏距离）

设有两个向量

，

它们之间的Euclidean distance为：

，值越小越相似。

（2）Manhattan distance（曼哈顿距离）

设有两个向量

，

它们之间的Manhattan distance为：

，值越小越相似。

（3）Minkowsk distance（闵可夫斯基距离）

设有两个向量

，

它们之间的Minkowsk distance为：

，值越小越相似。

（4）Hamming distance（海明距离）

Hamming distance可以用来度量两个串（通常是二进制串）的距离，其定义为这两个二进制串对应的位有几个不一样，那么海明距离就是几，值越小越相似。例如x=1010，y=1011，那么x和y的海明距离就是1。又如x=1000，y=1111，那么x和y的海明距离就是3。

（5）Jaccard Coefficient（Jaccard 系数）

Jaccard Coefficient用来度量两个集合的相似度，设有两个集合

和

，它们之间的Jaccard Coefficient定义为：

，值越大越相似。

例如

，

，则

。

（6）Pearson Correlation Coefficient（皮尔森相关系数）

设有两个向量

，

它们之间的Pearson Correlation Coefficient为：

，值越大越相关。

（7）Cosine Similarity（余弦相似度）

设有两个向量

，

它们之间的Cosine Similarity为：

，值越大越相似。

（8）Mahalanobis distance（马氏距离）

设有两个向量

，

它们之间的Mahalanobis distance为：

，值越小越相似。

其中

为x和y的协方差矩阵。

（9）Kullback-Leibler divergence（KL散度）

KL散度用来度量两个分布之间的距离，分布P和分布Q的KL散度定义为：

，值越小，两个分布就越相似。

（10）PMI (Pointwise Mutual information，点对互信息)

PMI利用co-occurance来衡量两个东西x和y的相似度，定义为：

，值越大越相关。

其中

为x,y一起出现的概率，

为x出现的概率，

为y出现的概率。

（11）NGD（normalized Google distance）

NGD可以用来度量两个东西x和y之间的相关性，作用和PMI有点类似，定义为：

，值越大越相关。
其中

是x在文档集中出现的频率，

是y在文档集中出现的频率，

是x,y在文档集中一起出现的频率，

是文档集的大小。

版权声明：本文内容由互联网用户自发贡献，该文观点与技术仅代表作者本人。本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。如发现本站有涉嫌侵权/违法违规的内容，请发送邮件至 dio@foxmail.com 举报，一经查实，本站将立刻删除。

上一篇：大数的处理下一篇：比较两数的大小，计算小数依次加到

相关推荐

大数据分析案例-基于随机森林模型对北京房价进行预测

自1998年我国取消了福利分房的政策后，房地产市场迅速开展蓬勃起来。同时，随着社会经济的快速开展，居民的经济条件越来越好，住房条件也在不断地提升。而住房是人民根本生活的保障，也是-一个家庭最重要的资产,从一定的层面.上反映了一个家庭整体的生活水王,多方面的因素使得房地产行业在短时间开展成为我国的支柱产业之一;成为了切实关乎人民生活和利益的重要产业。然而，随着房地产行业的开展，问题也慢慢突显出来，房价一直居高不下成为了一个大问题。作为国家的支柱产业,房地产的稳定发展关乎国计民生。近几年，房

作者：艾派森时间：2022-12-20

机器学习实战——房价预测完整案例建议收藏慢慢品

文章目录获取数据查看数据结构获取数据下载数据可以直接通过浏览器下载压缩包，也可以通过函数来进行。import osimport tarfileimport urllib.requestDOWNLOAD_ROOT = "https://raw.githubusercontent.com/ageron/handson-ml2/master/"HOUSING_PATH = os.path.join("datasets", "housing") # datasetstestHOUSING_

作者：Dream丶Killer 时间：2022-12-19

网上商城系统MySql数据库设计项目实战

网上商城系统MySql数据库设计

作者：胖哥真不错时间：2022-12-19

常见气象数据获取方式及批量下载代码汇总

26个来源的气象数据获取代码

作者：qazwsxpy 时间：2022-12-19

毕业设计基于大数据的共享单车数据分析与可视化

作者：DanCheng-studio 时间：2022-12-19

大数据分析案例-对电信客户流失分析预警预测

在进入21世纪以来，中国电信业告别了20世纪最后阶段的高速发展状态，转而进入稳步发展阶段。近年来，随着通信的成本逐年下降，电信市场用户覆盖率近乎100%，几乎没有可开发的新市场，移动、联通、电信三大电信企业完全占据了电信服务市场，电信行业的不断进步，使得各大电信运营商自身服务体系不断完善，目前我国的三大运营商均实现了全业务经营，这意味着行业内存在产品、服务、模式等方面的高度同质化，企业间难以实现差异化竞争优势。现如今的竞争环境，迫使运营商的经营重点向有利于电信消费者的方向移动，为了维持客户的保有量，对

作者：艾派森时间：2022-12-19

卡尔曼滤波

目录1.卡尔曼滤波入门2.学卡尔曼滤波的必备知识2.1.状态空间表达式2.2.高斯分布2.3.方差2.4.超参数2.5.卡尔曼直观图解3.卡尔曼滤波3.1.卡尔曼公式理解3.2.调节超参数3.2.1.Q和R的取值3.2.2.P0和X0的取值3.2.3.卡尔曼滤波的使用...

作者：随风张幔时间：2022-12-19

Python大数据-电商产品评论情感数据分析

一、项目背景网上购物已经成为大众生活的重要组成部分。人们在电商平台上浏览商品并购物，产生了海量的用户行为数据，用户对商品的评论数据对商家具有重要的意义。利用好这些碎片化、非结构化的数据，将有利于企业在电商平台上的持续发展，同时，对这部分数据进行分析，依据评论数据来优化现有产品也是大数据在企业经营中的实际应用。分析产品：韶音 AfterShokz Aeropex AS800骨传导蓝牙耳机运动无线耳骨传导耳机跑步骑行环法特别版（Aeropex AS800是AfterShokz韶音的网红新品，很多国内外

作者：你隔壁的小王时间：2022-12-19

大数据项目之电商数仓、Maxwell使用、 Maxwell启停脚本、增量数据同步、历史数据全量同步、采集通道Maxwell配置、通道测试

但有时只有增量数据是不够的，我们可能需要使用到MySQL数据库中从历史至今的一个完整的数据集。这就需要我们在进行增量同步之前，先进行一次历史数据的全量同步。这样就能保证得到一个完整的数据集。1）第一条type为bootstrap-start和最后一条type为bootstrap-complete的数据，是bootstrap开始和结束的标志，不包含数据，中间的type为bootstrap-insert的数据才包含数据。2）一次bootstrap输出的所有记录的ts都相同，为bootstrap开始的时间。

作者：Redamancy_06 时间：2022-12-06

[Hive]一篇带你读懂Hive是什么

✅作者简介：大家好,我是Philosophy7？让我们一起共同进步吧！

作者：Philosophy7 时间：2022-12-06

小编推荐

苹果市值2025年有望达4万亿美元