微信公众号搜"智元新知"关注
微信扫一扫可直接关注哦!

database – 匹配模糊字符串

我需要在Postgresql中将两个表合并在公共变量“公司名称”上.不幸的是,许多公司名称并不完全匹配(即一个表中的MICROSOFT,另一个表中的MICROSFT).我尝试从两个列中删除常用词,例如“corporation”或“inc”或“ltd”,以便尝试在两个表中标准化名称,但我无法考虑其他策略.有任何想法吗?

谢谢.

此外,如果有必要,我可以在R中这样做

你考虑过fuzzystrmatch模块吗?你可以使用soundex,差异,levenshtein,Metaphone和dMetaphone,或者组合.

fuzzystrmatch documentation

SELECT something
FROM somewhere
WHERE levenshtein(item1,item2) < Carefully_Selected_Threshold

例如,从MICROSOFT到MICROSFT的levenshtein距离是一(1).

levenshtein(dMetaphone('MICROSOFT'),dMetaphone('MICROSFT')

以上返回零(0).结合levenshtein和dMetaphone可以帮助你匹配许多拼写错误.

原文地址:https://www.jb51.cc/postgresql/192042.html

版权声明:本文内容由互联网用户自发贡献,该文观点与技术仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌侵权/违法违规的内容, 请发送邮件至 dio@foxmail.com 举报,一经查实,本站将立刻删除。

相关推荐