微信公众号搜"智元新知"关注
微信扫一扫可直接关注哦!

正则表达式 – 子串匹配正则表达式更快?

在阅读了RE / NFA和DFA之后,似乎找到一个字符串中的子字符串实际上可以使用RE而不是强力O(mn)find渐近地更快.我的理由是DFA实际上会保持状态并避免不止一次地处理“haystack”中的每个字符.因此,如果使用正则表达式,长字符串中的搜索实际上可能会快得多.

当然,这仅适用于从NFA转换为DFA的RE匹配器.

在使用RE而不是强力匹配器时,有没有人在现实生活中经历过更好的弦乐匹配表现?

首先,我建议您阅读有关几种语言的正则表达式内部的文章Regular Expression Matching Can Be Simple And Fast.

由于许多语言中的regexp不仅仅用于匹配,而且还提供了组捕获和反向引用的可能性,因此在执行从给定regexp构建的NFA时,几乎所有实现都使用所谓的“回溯”.并且这种实现具有指数时间复杂度(在最坏的情况下).

可以通过DFA实现RE实现(使用组捕获),但它有一个开销(参见Laurikari的论文NFAs with Tagged Transitions,their Conversion to Deterministic Automata and Application to Regular Expressions).

对于简单的子字符串搜索,您可以使用Knuth-Morris-Pratt算法,它构建DFA以搜索子字符串,并且它具有最佳的O(len(s))复杂度.但它也有开销,如果你在现实世界的单词和短语(不那么重复)上测试这种优化算法的天真方法(O(nm)),你会发现天真的方法平均更好.

对于精确的子字符串搜索,您还可以尝试Boyer–Moore算法,其具有O(mn)最坏情况复杂度,但在实际数据上平均比KMP更好.

版权声明:本文内容由互联网用户自发贡献,该文观点与技术仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌侵权/违法违规的内容, 请发送邮件至 dio@foxmail.com 举报,一经查实,本站将立刻删除。

相关推荐