如何解决PySpark 中的地址规范化和匹配
我正在 PySpark 中使用两个大型数据库,我必须通过属性组合来连接它们:其中之一是地址。我不能使用地理编码,因为数据太大而无法使用一些免费的地理编码工具,所以我要做的是基于地址的相似性度量(以及两个数据集的其他属性之间的相等性)进行连接。我的第一个问题是你的建议,因为现在我专注于 levenshtein 距离(可以在 spark SQL 中使用),我不知道在更多单词的上下文中性能如何。总是关于levenshtein,删除单词之间的所有空格还是保留它们更好?
其次,我必须为连接准备地址,我想对它们进行规范化(街道 -> st.,Avenue-> ave.,在 casefolding 之前......),所以我想知道你是否已经知道我可以使用的这些转换的可用在线列表(不仅仅是用英文写的地址)。
版权声明:本文内容由互联网用户自发贡献,该文观点与技术仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌侵权/违法违规的内容, 请发送邮件至 dio@foxmail.com 举报,一经查实,本站将立刻删除。