技术频道

公众号推荐

微信公众号搜"智元新知"关注
微信扫一扫可直接关注哦！

数据库 – 用于查找具有相似位值的附近键的数据结构

时间：2019-05-17分类：MsSQL作者：编程之家

我有一些数据,高达一百万到十亿条记录,每个数据由位域表示,每个密钥大约64位.这些位是独立的,你可以想象它们基本上是随机位.

如果我有一个测试键,我想用相同的键查找我的数据中的所有值,哈希表将很容易地吐出来,在O(1)中.

什么算法/数据结构将有效地查找与查询键最相似的所有记录？这里类似的意思是大多数位是相同的,但是最小的数字被允许是错误的.这通常由Hamming distance.测量,它只是计算不匹配位数.

有两种方式可能会进行此查询,可能是通过指定不匹配率,例如“给我一个所有现有密钥的列表,其中所有现有的密钥有少于6位,不同于我的查询”或简单的最佳匹配,如“给我一个具有我查询中不同位数最少的10,000个密钥的列表.

你可能会跑到k-nearest-neighbor algorithms,但是在这里我们谈论的是独立的位,所以似乎没有像四叉树这样的结构是有用的.

这个问题可以通过简单的强力测试来解决,这个哈希表用于低位数的不同位.如果我们想要查找与查询不同的所有键,例如,我们可以枚举所有64个可能的键并测试它们.但是这个爆炸很快,如果我们想允许两位差异,那么我们必须探测64 * 63 = 4032次.对于较高的位数,它的指数变差.

那么还有另一种数据结构或策略使得这种查询更有效率？
数据库/结构可以根据需要进行预处理,这是应优化的查询速度.

解决方法

你想要的是一个 BK-Tree.它是一个树,非常适合索引度量空间(你的问题是一个),并支持最近邻和距离查询.我之前写过 an article.

BK-tree通常用参考文本描述,并使用levenshtein距离构建树,但直接用二进制串和汉明距离来写一个.

原文地址：https://www.jb51.cc/mssql/75849.html

版权声明：本文内容由互联网用户自发贡献，该文观点与技术仅代表作者本人。本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。如发现本站有涉嫌侵权/违法违规的内容，请发送邮件至 dio@foxmail.com 举报，一经查实，本站将立刻删除。

上一篇：sql – select语句中的Subquery如何下一篇：SQL Server：存储时间的最佳方式(无

相关推荐

SQL Server CASE WHEN ... THEN ... ELSE ... END

SELECT a.*,b.dp_name,c.pa_name,fm_name=(CASE WHEN a.fm_no='LJCG001H' THEN dbo.ELTPNAME(a.fw_nu) ELSE d.fm_name END),e.fw_state_nm,f.fw_rmk_nm

作者：编程之家时间：2024-07-26

SQL Server 数据表栏位新增

if not exists(select name from syscolumns where name='tod_no' and id=object_id('iebo09d12')) alter table iebo09d12 add tod_no varchar(

作者：编程之家时间：2024-07-26

SQL Server Left join

select a.*,pano=a.pa_no,b.pa_name,f.dp_name,e.fw_state_nm,g.fa_name from LJSS007H a (nolock) Left join LJPA002H b (nolock) On a.pa_no =b.pa_no Left jo

作者：编程之家时间：2024-07-26

SQL Server 2019 中设置定时自动重启

要在 SQL Server 2019 中设置定时自动重启，可以使用 Windows 任务计划程序。下面是详细的步骤：步骤一：创建批处理文件打开记事本。输入以下内容： net stop "SQL Server (MSSQLSERVER)" net start "SQ

作者：编程之家时间：2024-07-26

SQL Server 事务日志已满

您收到的错误消息表明数据库 'EastRiver' 的事务日志已满，导致数据库操作失败。要解决这个问题，可以按照以下步骤操作： 1. 备份事务日志首先，备份事务日志以释放空间： BACKUP LOG [EastRiver] TO DISK = N'C:\Backup\East

作者：编程之家时间：2024-07-26

SQL SERVER PROFILER

首先我需要查询出需要使用SQL Server Profiler跟踪的数据库标识ID，若不知道怎么查询数据库的标识ID, 打开SQL Server management studio，点击工具。选择SQL Server Profiler。登录，登录成功后，如果有个默认弹窗，先取消新建追踪命名

作者：编程之家时间：2024-07-25

SQL Server:User, group, or role 'iemis' already exists in the current database.

--最新的解决方法 --先创建用户帐户，不进行授权，然后通过下面的SQL语句将该用户帐户关联至对应的数据库用户。优点是避免了重新授权的操作。 USE tempdbEXEC sp_change_users_login 'Update_One', 'iemis', &#3

作者：编程之家时间：2024-07-25

SQL Server2019 新增字段并设置默认值

命令： ALTER TABLE 表名 add 列名数据类型 default 默认值 not null 例如： ALTER TABLE LJEL005H add el_req int default 15 not null

作者：编程之家时间：2024-07-25

SQL 尚未定义空闲 CPU 条件

作者：编程之家时间：2024-07-25

sql 流水号的递增

declare @i int set @i=340 while @i<415 begin set @i=@iʱ insert into LJWK007H select '2024','28','9110','3PTSD621000000

作者：编程之家时间：2024-07-25

小编推荐

苹果市值2025年有望达4万亿美元