如何解决在给定地址列表中查找特定城市名称的最佳方法是什么?
我拥有的数据集是手动填充的地址。数据很大,而且有很多变化。
地址栏包含完整地址的信息,从公寓号到城市,街道名称到邻居名称和城市。由于是手动填写的,所以有很多错别字。
我想要寻找的城市是“伊斯坦布尔”。它有一个土耳其语字符,我也遇到了一些编码问题。例如,在 İstanbul 中使用 lower()'ing 不会返回一个我可以在正则表达式模式中使用常规 'i' 获取的字符。
因此,以及其他原因,我改变了模糊字符串搜索的方法。我想为我的模糊查找算法提供参考字符串:'/ist
' 和 'İstanbul'
— 这些是要在我的数据框的地址列中查找的参考值。
包含我想要捕捉的短语的行示例:
...İSYTANBUL...
...isanbul...
...Istanbul...
...İ/STANBUL...
...,STANBUL/ÜSKÜDAR...
isatanbul
iatanbul
İSTRANBUL
isytanbul
/isanbul
我已经尝试过使用 fuzzywuzzy 的运气,但是一个简单的 fuzz.ratio('istanbul','İSTANBUL')
返回给我的单词之间的比率为 0。我怎样才能让fuzzywuzzy 或其他库选择这些模式?
版权声明:本文内容由互联网用户自发贡献,该文观点与技术仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌侵权/违法违规的内容, 请发送邮件至 dio@foxmail.com 举报,一经查实,本站将立刻删除。