http://swtch.com/~rsc/regexp/regexp1.html
TL; DNR:固定$n $的某些正则表达式,如(a?)^ na ^ n取指数时间匹配,例如,^ n,因为它在匹配时通过字符串的追溯来实现?部分.通过保持状态列表将其作为NFA来实现,这显然是因为明显的原因
每个语言实际实现这些的细节不是非常详细(而且文章很旧),但我很好奇:使用NFA而不是其他实现技术的缺点是什么?我唯一可以想出的是,大多数图书馆的所有钟声和口哨声都是:a)为所有这些功能构建NFA是不切实际的或者b)上面的表达和其他一些可能更多的表现问题常见,操作.
一个关键的事情是,如果你可以检测到你不需要匹配的组信息,那么你可以(对于许多RE,特别是那些没有内部反向引用的RE),将RE转换为仅使用括号进行分组的RE,从而允许更有效的RE被生成(so(a?){n} a {n} – 我使用现代常规语法 – 变得有效地等效于{n,2n}).反向引用突破了主要优化;在亨利的RE代码(以上提到)中并没有什么是代码注释,将其描述为“黑色泻湖的特征”.这是我在代码中阅读的最好的评论之一(除了引用描述算法编码的学术论文).
另一方面,具有递归下降评估方案的Perl / PCRE风格引擎可以将一组更为语法的语义归结为混合的贪婪RE,还有许多其他的东西. (在最后端,递归模式 – (?R)等是完全不可能的自动机理论方法,它们需要一个堆栈来匹配,使它们正式不是正则表达式.)
在实际层面上,构建NFA和DFA的成本可能相当高.您需要聪明的缓存才能使其不太贵.而且在实际的层面上,PCRE和Perl的实现已经有更多的开发人员应用于它们.
版权声明:本文内容由互联网用户自发贡献,该文观点与技术仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌侵权/违法违规的内容, 请发送邮件至 dio@foxmail.com 举报,一经查实,本站将立刻删除。