c# – 地址匹配密钥算法

我在两个单独的表中有一个地址列表,略微偏离我需要能够匹配.例如,可以通过多种方式输入相同的地址:

> 110 Test St
> 110 Test St.
> 110 Test Street

虽然简单,但您可以想象更复杂的场景中的情况.我正在尝试开发一种能够将上述地址作为关键字匹配的简单算法.

例如.关键可能是“11TEST” – 110的前两个,测试的前两个和街道变体的前两个.完整匹配键也将包括前5个邮政编码,因此在上面的示例中,完整键可能看起来像“11TEST44680”.

我正在寻找有效算法或资源的想法,我可以在开发时考虑这些因素.任何想法都可以是伪代码或您选择的语言.

我们只关心美国的地址.事实上,我们只查看来自俄亥俄州和密歇根州的250个邮政编码的地址.我们也无法访问任何邮政软件,尽管对于具有成本效益的解决方案的想法是开放的(它基本上是一次性使用).请注意,这是来自政府来源的初始数据转储,因此有关用户如何清理它的建议对我构建应用程序很有帮助,但我希望能够将地址匹配为最佳状态.尽可能好.

解决方法

我正在研究类似的算法,它应该在我完成时处理加拿大,美国,墨西哥和英国的地址.我面临的问题是他们在我们的数据库中以3字段明文格式[谁认为这是一个好主意应该被拍摄恕我直言],所以试图处理农村路线,一般交付,大容量接收器,多个国家,省与州与县,邮政编码与邮政编码,拼写错误一个不小或简单的任务.

拼写错误本身并不是一件小事 – 尤其是当你到达使用法国名字的国家时 – 匹配Saint,Sainte,St,Ste,Saints,Saintes,Sts,Stes,Grand,Grande,Grands,Grandes,有或没有句号或连字符名称的较大部分不会导致性能问题的终结 – 特别是当St可能意味着圣人或街道,并且可能或可能没有进入正确的背景(即女性与男性).如果地址输入正确但省份或邮政编码不正确怎么办?

一个开始搜索的地方是Levenstein Distance Algorithm,我发现它对消除大部分拼写错误非常有用.之后,主要是搜索关键字并与邮政数据库进行比较.

我真的很想与目前正在开发工具的任何人合作,也许我们可以互相协助,找到一个共同的解决方案.我已经成为那里的一部分并且已经克服了我到目前为止提到的所有问题,让其他人研究同样的问题对于反弹意见真的很有帮助.

干杯 – [ben at afsinc dot ca]

版权声明:本文内容由互联网用户自发贡献,该文观点与技术仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌侵权/违法违规的内容, 请发送邮件至 dio@foxmail.com 举报,一经查实,本站将立刻删除。

相关推荐


原文地址:http://msdn.microsoft.com/en-us/magazine/cc163791.aspx 原文发布日期: 9/19/2005 原文已经被 Microsoft 删除了,收集过程中发现很多文章图都不全,那是因为原文的图都不全,所以特收集完整全文。 目录 前言 CLR启动程序
前言 随着近些年微服务的流行,有越来越多的开发者和团队所采纳和使用,它的确提供了很多的优势也解决了很多的问题,但是我们也知道也并不是银弹,提供优势的同时它也给我们的开发人员和团队也带来了很多的挑战。 为了迎接或者采用这些新技术,开发团队需要更加注重一些流程或工具的使用,这样才能更好的适应这些新技术所
最近因为比较忙,好久没有写博客了,这篇主要给大家分享一下PLINQ中的分区。上一篇介绍了并行编程,这边详细介绍一下并行编程中的分区和自定义分区。 先做个假设,假设我们有一个200Mb的文本文件需要读取,怎么样才能做到最优的速度呢?对,很显然就是拆分,把文本文件拆分成很多个小文件,充分利用我们计算机中
在多核CPU在今天和不久的将来,计算机将拥有更多的内核,Microsoft为了利用这个硬件特性,于是在Visual Studio 2010 和 .NET Framework 4的发布及以上版本中,添加了并行编程这个新特性,我想它以后势必会改变我们的开发方式。 在以前或者说现在,我们在并行开发的时候可
c语言输入成绩怎么判断等级
字符型数据在内存中的存储形式是什么
c语言怎么求字符串的长度并输出
c语言函数的三种调用方式是什么
c语言中保留两位小数怎么表示
double的输入格式符是什么
长整型输出格式是什么
C语言中文件包含的命令关键字是什么
c程序如何编写x的y次方
c语言开根号代码是什么
c语言怎么进行字符串比较
c语言怎么进行强制类型转换
c语言运算符的优先级顺序是什么
c++用什么软件编程
中序遍历是怎么遍历的
h文件和c文件的关系是什么