微信公众号搜"智元新知"关注
微信扫一扫可直接关注哦!

地址匹配 - 获取与手绘条目最接近的正确地址匹配

如何解决地址匹配 - 获取与手绘条目最接近的正确地址匹配

我有一组 25000 个地址(由 AddreLine1、AddreLine2、AddreLine3、AddreLine4 和邮政编码组成),这些地址已手动输入到数据库中,现在我将它们存储在 excel/csv 文件中。让我们称之为集合 A。 另一方面,我有该地理区域的完整地址集。让我们称之为集合 G。它有超过 3000 万个条目。

我需要将 Set A 中的地址与 Set G 中的地址进行比较,以获得最接近的匹配,然后可用于邮寄。

我将不得不在 python 中实现这一点,并且我正在使用 Pandas 库来处理大量数据。 我根据 [Levenshtein distance][1] 算法匹配地址。使用比率输出来选择。

我只是将集合 A 中的每个地址与集合 G 中的每个地址进行匹配,并过滤掉错误的匹配。并根据一些排名算法,我会选择最匹配的地址。

我发现这个实现非常耗时,而且是一种天真的方法

请提出在使用 Python 语言的限制范围内是否有更好的方法

版权声明:本文内容由互联网用户自发贡献,该文观点与技术仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌侵权/违法违规的内容, 请发送邮件至 dio@foxmail.com 举报,一经查实,本站将立刻删除。