微信公众号搜"智元新知"关注
微信扫一扫可直接关注哦!

Python中的字符串相似性指标

如何解决Python中的字符串相似性指标

谢菲尔德大学有大量的字符串相似性指标资源。它具有各种指标列表(仅包括Levenshtein),并且具有这些指标的开源实现。看起来其中许多应该很容易适应Python。

http://web.archive.org/web/20081224234350/http://www.dcs.shef.ac.uk/~sam/stringmetrics.html

以下是一些清单:

  • 汉明距离
  • 莱文施泰因距离
  • Needleman-Wunch距离或卖方算法
  • 还有很多…

解决方法

我想找到两个字符串之间的字符串相似性。页面包含其中一些示例。Python具有Levenshtein算法的实现。在这些约束下是否有更好的算法(最好是python库)。

  1. 我想在字符串之间进行模糊匹配。例如matchs(’Hello,All you people’,’hello,all You peopl’)应该返回True
  2. 假阴性是可以接受的,假阳性是可以接受的,除非在极少数情况下是不允许的。
  3. 这是在非实时设置中完成的,因此速度不是(很多)问题。
  4. [编辑]我正在比较多个单词的字符串。

对于我的情况,除Levenshtein距离(或Levenshtein比率)以外的其他算法是否会更好?

版权声明:本文内容由互联网用户自发贡献,该文观点与技术仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌侵权/违法违规的内容, 请发送邮件至 dio@foxmail.com 举报,一经查实,本站将立刻删除。