如何解决FuzzyWuzzy Wratio 得分错误
我了解基本的fuzzy-wuzzy 及其分数是如何工作的。 然而,我遇到了一个场景,即使这两个字符串似乎没有任何相似之处,fuzzy-wuzzy 还是给 WRatio 一个高分。 (下图供参考)。
谁能解释并帮助我理解为什么会导致这种行为?
解决方法
在你的情况下,两个字符串:
"The Boston Globe's Fresh Start program embraces the right to be forgotten"
"Subscribe to Continue Reading"
有超过 50% 的长度差异,因此 WRatio 确实使用了大多数算法的部分版本,并将它们的权重降低了一些。对于两个示例字符串,fuzz.partial_token_set_ratio
返回 100 分,因为两个句子都包含单词 to
。这个分数然后用 0.95 加权,类似于 token_set_ratio
,然后用 0.9 加权,因为它是部分版本。您的最终得分是 100 * 0.95 * 0.9 = 85.5
-> round(85.5) = 86
。
版权声明:本文内容由互联网用户自发贡献,该文观点与技术仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌侵权/违法违规的内容, 请发送邮件至 dio@foxmail.com 举报,一经查实,本站将立刻删除。