如何解决如何在位置敏感哈希LSH中将签名矩阵哈希到存储桶
我了解通过应用散列函数从带状疱疹创建签名矩阵的算法。 但是我不明白如何将签名矩阵中的特定频段散列到存储桶中。 假设在矩阵M的带b1中,对于文档C1-C5,我们具有以下值:
var networkPublisher
仅通过查看值,我们可以看到C2和C4在该波段中是相同的,它们应该散列到同一存储桶中。但是其他列将散列到不同的存储桶中。
我的问题是如何在不进行实际比较的情况下将这些列散列到存储桶中,并知道它们是否相同。如何定义哈希函数以将列映射到存储桶?像列中元素的总和?
解决方法
简单的方法,假设你有 1024 个桶
hash = 1
for val in column:
hash = (( hash * 33 ) + val ) % 1024
% 1024
必须是您拥有的桶数。
33
是一个神奇的数字,在字符串实践中效果很好
数字 33 的魔力(为什么它比许多其他常数更有效,无论质数与否)从未得到充分解释。
版权声明:本文内容由互联网用户自发贡献,该文观点与技术仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌侵权/违法违规的内容, 请发送邮件至 dio@foxmail.com 举报,一经查实,本站将立刻删除。