微信公众号搜"智元新知"关注
微信扫一扫可直接关注哦!

ruby – 模糊文件匹配/文本指纹识别的最佳库

我正在考虑构建一个API,让程序提交学术出版物的“指纹”,将其与Open Access期刊的文章数据库进行匹配,如果发现,则向用户发送规范引用信息.最初这是针对一个特定的小型研究领域,所以不一定需要处理2000万篇论文才能取得成功(即使在该领域的1000篇最常被引用的论文被覆盖,这对生产力来说将是巨大的福音和协作).

我想知道什么图书馆(能够与Ruby进行接口,理想情况下)将是做最好的“指纹识别”.我已经看到了Lucene的模糊匹配,但这似乎在一个单词级别上工作,而在这种情况下,我们可能希望提交一个更大的文档子集.做模糊比赛的原因是有些人可能会使用Word.doc预印本,有些人可能会有最终的PDF等.

我真的很欣赏这里的一些想法.搜索“感知哈希”让我进入一堆新的材料.我试图总结我的许多发现here.

看起来像SimHash,例如the C implementation将是走的路,但我仍然需要更多的实验.

解决方法

你可以使用 pHash这样的工作.

this宝石将帮助您开始:

require 'phash/text'
Phash::Text.new('first.txt') % Phash::Text.new('second.txt')

原文地址:https://www.jb51.cc/ruby/267153.html

版权声明:本文内容由互联网用户自发贡献,该文观点与技术仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌侵权/违法违规的内容, 请发送邮件至 dio@foxmail.com 举报,一经查实,本站将立刻删除。

相关推荐