如何解决Python difflib?软件崩溃匹配
示例:
'[Dsp Restart] ULMA[00256]bbiSrioDrv_main_hwcb.c98 EMCA dest_Id 0x4 无法接收来自此的消息'
'[Dsp Restart] ULMA[00256]bbiSrioDrv_main_hwcb.c98 EMCA dest_Id 0xf4 无法接收来自这个 c4 的消息'
'[Dsp Restart] ULMA[00256] ull1pemaster_storage.c424 DBC (this_p->_cellInfo o[cellIndex]).subF'
这只是一个很小的子集,但我不能只说十六进制字符,因为我需要这些字符。所以我试图用 difflib 来匹配。如果我匹配前两行,则匹配率超过 90%。
我遇到的问题是说找到前两个的所有变体,制作第一个文本实例的 dic 并计算超过 90% 匹配的总数。我似乎无法让它查看所有崩溃的列表并将所有类似的崩溃组合起来。
不管怎样,我基本上还是没有把前两个像崩溃一样归为一个单一的。
使用 difflib 中的 SequenceMatcher 工作并且速度很快,但就像我说的,仍然为每个崩溃创建一个实例,而不是组合在一起。使用 difflib 中的 get_close_matches 可以工作并找到所有类似的并制作一个列表。但我正在循环 10 万行之类的东西,所以它需要永远!!!
我喜欢一些想法。谢谢。
版权声明:本文内容由互联网用户自发贡献,该文观点与技术仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌侵权/违法违规的内容, 请发送邮件至 dio@foxmail.com 举报,一经查实,本站将立刻删除。