微信公众号搜"智元新知"关注
微信扫一扫可直接关注哦!

如何在位置敏感哈希LSH中将签名矩阵哈希到存储桶

如何解决如何在位置敏感哈希LSH中将签名矩阵哈希到存储桶

我了解通过应用散列函数从带状疱疹创建签名矩阵的算法。 但是我不明白如何将签名矩阵中的特定频段散列到存储桶中。 假设在矩阵M的带b1中,对于文档C1-C5,我们具有以下值:

var networkPublisher

仅通过查看值,我们可以看到C2和C4在该波段中是相同的,它们应该散列到同一存储桶中。但是其他列将散列到不同的存储桶中。

我的问题是如何在不进行实际比较的情况下将这些列散列到存储桶中,并知道它们是否相同。如何定义哈希函数以将列映射到存储桶?像列中元素的总和?

解决方法

简单的方法,假设你有 1024 个桶

hash = 1 
for val  in column:
   hash = (( hash * 33 )  +  val ) % 1024

% 1024 必须是您拥有的桶数。 33 是一个神奇的数字,在字符串实践中效果很好

数字 33 的魔力(为什么它比许多其他常数更有效,无论质数与否)从未得到充分解释。

http://www.cse.yorku.ca/~oz/hash.html

版权声明:本文内容由互联网用户自发贡献,该文观点与技术仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌侵权/违法违规的内容, 请发送邮件至 dio@foxmail.com 举报,一经查实,本站将立刻删除。

相关推荐


Selenium Web驱动程序和Java。元素在(x,y)点处不可单击。其他元素将获得点击?
Python-如何使用点“。” 访问字典成员?
Java 字符串是不可变的。到底是什么意思?
Java中的“ final”关键字如何工作?(我仍然可以修改对象。)
“loop:”在Java代码中。这是什么,为什么要编译?
java.lang.ClassNotFoundException:sun.jdbc.odbc.JdbcOdbcDriver发生异常。为什么?
这是用Java进行XML解析的最佳库。
Java的PriorityQueue的内置迭代器不会以任何特定顺序遍历数据结构。为什么?
如何在Java中聆听按键时移动图像。
Java“Program to an interface”。这是什么意思?