微信公众号搜"智元新知"关注
微信扫一扫可直接关注哦!

python dedupe地名词典处理数百万条记录

如何解决python dedupe地名词典处理数百万条记录

我正在尝试使用 python 重复数据删除地名录来处理针对一百万条记录搜索的数百万条记录。我知道这里有一个重复数据删除 postgres 示例:

old postgres gazetteer sample

但那是一些旧版本。它具有普通重复数据删除用于索引商品然后将其写入数据库的索引方法,这很好,但它并没有真正反映新重复数据删除示例的索引方法postgres dedupe sample

在新的有阻塞映射和逆索引thingamajig。我是否只是根据规范字典加载整个索引:

gazetteer.index(canonical)

然后这样写:

results = gazetteer.search(messy,n_matches=2,generator=True)

一次向数据库输入一个条目,或者更现实地说,一次输入 100,000 个条目?不需要逆thingamabobble 或blocking map?

版权声明:本文内容由互联网用户自发贡献,该文观点与技术仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌侵权/违法违规的内容, 请发送邮件至 dio@foxmail.com 举报,一经查实,本站将立刻删除。