我有一堆名字,我想要获得唯一的名字。但是,由于数据中的拼写错误和不一致,名称可能被写下来错误。我正在寻找一种方法来检查字符串矢量,如果其中两个是相似的。
例如:
pres <- c(" Obama,B.","Bush,G.W.","Obama,B.H.","Clinton,W.J.")
我想找到“奥巴马B.”和“奥巴马B.H.”非常相似。有没有办法做到这一点?
这可以基于例如Levenshtein距离来完成。这在不同的包中有多种实现。有些解决方案和包可以在这些问题的答案中找到:
> agrep: only return best match(es)
> In R,how do I replace a string that contains a certain pattern with another string?
> Fast Levenshtein distance in R?
但大多数情况下,agrep会做你想要的:
> sapply(pres,agrep,pres) $` Obama,B.` [1] 1 3 $`Bush,G.W.` [1] 2 $`Obama,B.H.` [1] 1 3 $`Clinton,W.J.` [1] 4
原文地址:https://www.jb51.cc/regex/357669.html
版权声明:本文内容由互联网用户自发贡献,该文观点与技术仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌侵权/违法违规的内容, 请发送邮件至 dio@foxmail.com 举报,一经查实,本站将立刻删除。