微信公众号搜"智元新知"关注
微信扫一扫可直接关注哦!

类似Simhash的算法来比较两个文本文档

如何解决类似Simhash的算法来比较两个文本文档

| 问题是: 我有一组文本文档,我想选择与输入文档最相似的一个。 输入的文本文档可以完全匹配或部分修改。 该算法必须非常快。 目前,我发现simhash从收集文档中获取指纹。还有其他算法可以做同样的事情吗?     

解决方法

        您是否尝试过LSH(位置敏感哈希)技术     ,        LSH(位置敏感哈希)技术是常规的索引方法。他们在寻找近似最近的邻居方面非常有效。 SimHash是LSH的一种哈希算法。它对实际值数据使用余弦相似度。 MinHash是LSH的另一种哈希算法。它计算二进制矢量上的相似度相似度。 Anand Rajaraman和Jeff Ullman撰写的第3章,海量数据集的挖掘。很好地介绍了问题空间,尤其是MinHash。     

版权声明:本文内容由互联网用户自发贡献,该文观点与技术仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌侵权/违法违规的内容, 请发送邮件至 dio@foxmail.com 举报,一经查实,本站将立刻删除。