技术频道

公众号推荐

微信公众号搜"智元新知"关注
微信扫一扫可直接关注哦！

近邻搜索算法浅析

时间：2022-10-12分类：常见问题作者：得物技术

简介

随着深度学习的发展和普及，很多非结构数据被表示为高维向量，并通过近邻搜索来查找，实现了多种场景的检索需求，如人脸识别、图片搜索、商品的推荐搜索等。另一方面随着互联网技术的发展及5G技术的普及，产生的数据呈爆发式增长，如何在海量数据中精准高效的完成搜索成为一个研究热点，各路前辈专家提出了不同的算法，今天我们就简单聊下当前比较常见的近邻搜索算法。

主要算法

Kd-Tree

K-dimension tree，二叉树结构，对数据点在k维空间（如二维 (x，y)，三维(x，y，z)，k维(x，y，z..)）中划分。

构建过程 确定split域的值(轮询 or 最大方差) 确定Node-data的域值（中位数 or 平均值）确定左子空间和右子空间递归构造左右子空间

查询过程 进行二叉搜索，找到叶子结点回溯搜索路径，进入其他候选节点的子空间查询距离更近的点重复步骤2，直到搜索路径为空

性能理想情况下的复杂度是O(K log(N)) 最坏的情况下（当查询点的邻域与分割超平面两侧的空间都产生交集时，回溯的次数大大增加）的复杂度为维度比较大时，直接利用K-d树快速检索（维数超过20）的性能急剧下降，几乎接近线性扫描。

改进算法 Best-Bin-First：通过设置优先级队列（将“查询路径”上的结点进行排序，如按各自分割超平面与查询点的距离排序）和运行超时限定（限定搜索过的叶子节点树）来获取近似的最近邻，有效地减少回溯的次数。采用了BBF查询机制后Kd树便可以有效的扩展到高维数据集上。

Randomized Kd tree：通过构建多个不同方向上的Kd tree，在各个Kd tree上并行搜索部分数量的节点来提升搜索性能（主要解决BBF算法随着Max-search nodes增长，收益减小的问题）

Hierarchical k-means trees

类似k-means tree，通过聚类的方法来建立一个二叉树来使得每个点查找时间复杂度是O(log n) 。

构建过程： 随机选择两个点，执行k为2的聚类，用垂直于这两个聚类中心的超平面将数据集划分在划分的子空间内进行递归迭代继续划分，直到每个子空间最多只剩下K个数据节点最终形成一个二叉树结构。叶子节点记录原始数据节点，中间节点记录分割超平面的信息

搜索过程

从根节点开始比较，找到叶子节点，同时将路径上的节点记录到优先级队列中
执行回溯，从优先级队列中选取节点重新执行查找
每次查找都将路径中未遍历的节点记录到优先级队列中
当遍历节点的数目达到指定阈值时终止搜索

性能

搜索性能不是特别稳定，在某些数据集上表现很好，在有些数据集上则有些差
构建树的时间比较长，可以通过设置kmeans的迭代次数来优化

LSH

Locality-Sensitive Hashing 高维空间的两点若距离很近，他们哈希值有很大概率是一样的；若两点之间的距离较远，他们哈希值相同的概率会很小.

一般会根据具体的需求来选择满足条件的hash函数，(d1,d2,p1,p2)-sensitive 满足下面两个条件（D为空间距离度量,Pr表示概率）：

若空间中两点p和q之间的距离D(p,q)<d1，则Pr(h(p)=h(q))>p1
若空间中两点p和q之间的距离D(p,q)>d2，则Pr(h(p)=h(q))<p2

离线构建索引

选择满足(

原文地址：https://cloud.tencent.com/developer/article/2065067

版权声明：本文内容由互联网用户自发贡献，该文观点与技术仅代表作者本人。本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。如发现本站有涉嫌侵权/违法违规的内容，请发送邮件至 dio@foxmail.com 举报，一经查实，本站将立刻删除。

上一篇：Classloader隔离技术在业务监控中的下一篇：【云安全最佳实践】云防火墙和Web应

相关推荐

使用Nvdia显卡驱动自带的录屏功能录制游戏

作者：琥珀的天空时间：2024-09-29

显卡天梯图2024最新版显卡性能天梯图2024最新排行榜

显卡天梯图2024最新版，显卡是电脑进行图形处理的重要设备，显卡的性能高低决定了电脑的性能高低。显卡天梯图用数据直观地为我们展示了具体性能数据，让我们可以根据这些参数进行显卡性能的选择，让我们可以获得符合自己使用需求的显卡

作者：编程之家时间：2024-09-24

初始化电脑时出现问题怎么办初始化电脑时出现问题解决方法

初始化电脑时出现问题怎么办，可以使用win系统的安装介质，连接电脑后重启，选择从介质中引导，然后点击修复计算机-疑难解答-高级选项-自动修复，等待一段时间就可以了。有些小伙伴在初始化电脑是碰到了问题，下面小编给大家带来了初始化电脑时出现问题解决方法。

作者：编程之家时间：2024-09-24

todesk远程开机怎么设置 todesk远程开机教程

todesk远程开机怎么设置，两台电脑要在同一局域网内，然后需要修改BIOS，还要修改电源选项。我们在使用todesk软件时，有些小伙伴想要进行远程开机，那应该怎么设置呢，下面小编就给大家带来了todesk远程开机教程，一起来看看吧。

作者：编程之家时间：2024-09-24

油猴谷歌插件怎么安装油猴谷歌插件安装教程

油猴谷歌插件怎么安装，可以通过谷歌应用商店进行安装，需要才能打开应用商店，或者是下载插件到本地，解压后把Tampermonkey.crx文件拖到谷歌浏览器的程序扩展页面进行安装。小伙伴想知道谷歌浏览器怎么安装油猴，下面小编给大家带来了油猴谷歌插件安装教程。

作者：编程之家时间：2024-09-24

16g虚拟内存设置多少合适 16g虚拟内存最佳设置方法

虚拟内存这个名词想必很多人都听说过，我们在使用电脑的时候，特别是玩大型游戏时候，如果内存空间不足则会开启使用虚拟内存，这样就能够防止死机的情况。有不少的新用户在安装系统的时候，不知道16G的内存设置多大的虚拟内存，下面小编就详细给大家讲解下多少才

作者：编程之家时间：2024-09-24

win11本地账户怎么改名 win11本地账户改名图文介绍

win11本地账户怎么改名?win11很多操作都变了样，用户如果想要修改用户名称可能找不到具体的位置在哪。win11系统本地账户的名称都是默认的，很多用户为了有特征性想要更改一些有趣的名称，这样看起来更有个性点。win11本地账户怎么改名，我们可以通过打开控制面板，然后

作者：编程之家时间：2024-09-24

网速怎么看快慢k/s,b/s是什么意思网速怎么看快慢k/s,b/s哪个快

网速怎么看快慢k s,b s是什么意思，k b就是网速1kb每秒，b s就是网速1b每秒,1kb=1024b。很多小伙伴在下载或上传文件时都会看着kb s，b s等等单位，这些单位是什么意思呢，哪个比较快呢，下面小编给大家带来了网速怎么看快慢k s,b s哪个快的相关资讯。

作者：编程之家时间：2024-09-24

笔记本声卡驱动怎么更新笔记本声卡驱动更新方法

我们在使用电脑的时候，经常需要对各种驱动进行更新，如果长期不更新会导致无法正常的使用。有不少的用户在问，该怎么更新声卡驱动？其实很简单，我们右键“我的电脑”打开“设备管理器”，找到“声音”选项并右键“realtek audio”更新驱动程序即可，具体如下。

作者：编程之家时间：2024-09-24

应用程序无法正常启动0x0000142怎么办 0x0000142错误代码解决办法

应用程序无法正常启动0x0000142怎么办?我们的电脑在日经月累的使用下，难免会出现各种问题，最近有小伙伴反应自己的电脑出现应用程序无法正常启动0x0000142的错误代码，这要怎么解决呢?下面小编就告诉大家电脑遇到0x0000142错误代码的解决办法。

作者：编程之家时间：2024-09-24

小编推荐

苹果市值2025年有望达4万亿美元