微信公众号搜"智元新知"关注
微信扫一扫可直接关注哦!

解析人名并在Ruby中匹配它们

我正在寻找一个宝石或项目,让我发现两个名字是同一个人.例如

J.R. Smith == John R. Smith == John Smith == John Roy Smith == Johnny Smith

我想你应该已经明白了.我知道什么都不会100%准确,但我想得到的东西至少可以处理大多数情况.我知道最后一个可能需要一个昵称数据库.

解决方法

我认为一种选择是使用 Levenshtein distance的ruby实现

两个字符串之间的Levenshtein距离定义为将一个字符串转换为另一个字符串所需的最小编辑数,允许的编辑操作是单个字符的插入,删除或替换.

然后你可以定义距离小于X的名字(X是你必须调整的数字)来自同一个人.

编辑
通过一点点搜索,我能够找到另一种算法,基于名为Metaphone的语音

它还有很多漏洞,但我认为在这种情况下,每个人都可以做的最好的事情就是为你提供替代方案来测试并看看什么效果最好

版权声明:本文内容由互联网用户自发贡献,该文观点与技术仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌侵权/违法违规的内容, 请发送邮件至 dio@foxmail.com 举报,一经查实,本站将立刻删除。

相关推荐