如何解决计算包含两个不同数据帧中字符串的两列之间的字符串相似度
我在特定数据框 (df1) 中有一个列,其中包含一定数量的观察值。我想计算 df1 的每个观察值与包含更多观察值的另一个数据框 (df2) 的所有观察值之间的最高相似度得分。
示例: df1-
先生。号 | 句子 |
---|---|
1. | 我的名字是Hitakshi |
2. | 我来自美国 |
3. | “你好!你好吗?” |
4. | 呆在那里 |
df2 -
先生。号 | 句子 |
---|---|
1. | 你是个白痴 |
2. | 足够聪明 |
3. | 我叫雅利安 |
4. | 怎么了 |
5. | 入住 |
6. | 我来自美国 |
7. | 要有耐心 |
8. | 你很漂亮 |
9. | 我的名字是Hitakshi |
问题: 我想在 df1 的第一次观察(“我的名字是 Hitakshi”)和 df2 的所有观察(忽略标点符号)之间找到最高的字符串相似度分数。同样,对于第二次观察,依此类推。
预期输出-
句子 | 最高相似度得分 |
---|---|
我的名字是Hitakshi | 100 |
我来自美国 | 100 |
“你好!你好吗?” | 40 |
呆在那里 | 20 |
我知道我可以使用 Jarowinkler 距离,但是我如何通过其他列的所有观察值迭代每个观察值。
版权声明:本文内容由互联网用户自发贡献,该文观点与技术仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌侵权/违法违规的内容, 请发送邮件至 dio@foxmail.com 举报,一经查实,本站将立刻删除。