正则表达式中的反向引用如何使回溯需要?

我读了 http://swtch.com/~rsc/regexp/regexp1.html,作者说,为了在正则表达式中有反向引用,匹配时需要回溯,这使得最坏情况的复杂度呈指数增长.但是我不明白为什么反向引用需要回溯.有人可以解释为什么,也许提供一个例子(正则表达式和输入)?
要直接了解您的问题,您应该对 Chomsky Hierarchy进行简短的研究.这是一种以越来越复杂的方式组织正式语言的古老而美丽的方式.层次结构的最低级别是常规语言.你可能会猜到 – 你是对的 – RL是那些可以用“纯粹”正则表达式表示的那些:只有字母表,空字符串,连接,交替|和Kleene star *(看Ma,没有反参考).形式语言理论的经典定理 – 克莱恩定理 – 是,DFA,(如你所引用的文章中描述的)和正则表达式都具有完全相同的权力来表示和识别语言.汤普森在文章中给出的建议是定理证明的一部分.

每个RL也是CFL.但是,无限次的CFL是不正常的. CFL中存在的一个功能,使它们太复杂,无法成为常规的平衡对象:括号,开始块等.几乎所有的编程语言都是CFL. CFL可以通过所谓的下推自动机被有效地识别,这本质上是一个粘贴了NPC的NFA.堆栈根据需要增长到很大,因此它不再是有限自动机.实际编程语言的解析器几乎都是下推自动机的变体.

考虑使用反引号的正则表达式

^(b*a)\1$

换句话说,这表示一些n的长度为2n的字符串,其中第n个和第2n个字符都是a,所有其他字符都是b.这是一个非常规的CFL的完美示例.你可以用另外一种很酷的形式语言工具来证明这一点,称之为抽象引理.

这正是为什么回参考引起问题!它们允许表示不常规语言的“正则表达式”.因此,没有NFA或DFA无法识别它们.

但是,等等,这甚至比我已经这么远了.考虑

^(b*a)\1\1$

我们现在有一个长度为3n的字符串,其中第n个,第2n个和第3个元素是a,所有其他元素都是b.还有另外一种抽搐法的风味,可以证明这种语言太复杂,不能成为CFL!没有下推自动机可以识别这个.

后面的引用允许这些增强的正则表达式表示Chomsky层次结构上的三个语言:语境敏感语言.大致来说,识别CSL的唯一方法是检查所有长度相同的字符串(至少如果P!= NP,但是对于所有实际目的都是如此,并且完全不同).这些字符串的数量在您匹配的字符串的长度上是指数的.

这就是为什么需要搜索正则表达式匹配器的原因.你可以非常聪明的设计搜索的方式.但是,总是会有一些投入使它花费指数时间.

所以我同意你引用的论文的作者.可以编写完美无瑕的正则表达式,没有后退参考,几乎所有输入都将被高效地识别,但是存在导致Perl或Java或Python正则表达式匹配器的一些输入,因为它是一个回溯搜索 – 要求数百万几年完成比赛.这太疯狂了.你可以有一个脚本是正确的,工作正常多年,然后锁定一天只是因为它绊倒了一个坏的输入.假设正则表达式被掩埋在你正在骑的飞机上的导航系统的消息解析器中

编辑

根据要求,我将描述如何使用抽水引理来证明语言a ^ k b a ^ k b不是常规的.这里^ k是重复k次的缩写. PL表示必须存在正整数N,使得长度至少为N的常规语言中的每个字符串必须具有R S T的形式,使得R S ^ k T也在所有自然k的语言中.这里R,S,T是字符串,S可能不为空.

PL的证明取决于每个常规语言对应于一些DFA的事实.这个DFA的接受输入长于其状态数(相当于引文中的L)必须使其“循环:”重复一个状态.调用这个状态X.机器消耗一些字符串R从起始到X,然后S循环回X,然后T到达接受状态.那么,在输入中添加S的额外副本(或者删除S)只对应于从X返回到X的不同数量的“循环”.因此,还将接受带有附加(或删除的)S副本的新字符串.

由于每个RL都必须满足PL,所以证明语言不是常规的证明,表明它与PL相矛盾.对于我们的语言,这并不难.假设你试图说服我的语言L = a ^ k b a ^ k b满足PL.因为这样做,你必须能够给我一些N值(见上文):一个假设的DFA中识别L的状态数.在这一点上,我会说:“好吧,普通人先生,考虑字符串B = a ^ N ba ^ N b.“如果L是常规的,B必须使这个DFA(不管它是什么样的)在前N个字符中循环,这必须全部为!所以循环(上面的字符串S)也包括所有的.有了这个,我可以立即显示你对L的正常要求是假的.我只是选择第二次绕圈.这将导致您的这个假设的DFA接受一个新的字符串a ^ M b a ^ N b,其中M> N,因为我添加了上半部分.哎哟!这个新的字符串不在L中,所以PL毕竟不是真的.由于我每次都可以做这个技巧,无论你提供什么,PL都不能持有L,而L不能一直是正常的.

由于它不是常规的,所以Kleene的定理告诉我们,没有描述它的DFA或FA和“纯粹”正则表达式.

背面参考的证明允许甚至没有上下文的语言具有非常相似的环,但需要下推自动机的背景,我不会在这里给出. Google将提供.

注意:这两个都没有证明后退参考使得NP完整.他们只是以非常严格的方式来说,反驳引用了纯正则表达式的真正复杂性.它们允许任何无限制存储器的机器无法识别的语言,也不允许只有无限大的LIFO存储器.我会把NP的完整性证明给别人.

版权声明:本文内容由互联网用户自发贡献,该文观点与技术仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌侵权/违法违规的内容, 请发送邮件至 dio@foxmail.com 举报,一经查实,本站将立刻删除。

相关推荐


jquery.validate使用攻略(表单校验) 目录 jquery.validate使用攻略1 第一章 jquery.validate使用攻略1 第二章 jQuery.validate.js API7 Custom selectors7 Utilities8 Validato
/\s+/g和/\s/g的区别 正则表达式/\s+/g和/\s/g,目的均是找出目标字符串中的所有空白字符,但两者到底有什么区别呢? 我们先来看下面一个例子: let name = 'ye wen jun';let ans = name.replace(/\s/g, '&#3
自整理几个jquery.Validate验证正则: 1. 只能输入数字和字母 /^[0-9a-zA-Z]*$/g jQuery.validator.addMethod("letters", function (value, element) { return this.optio
this.optional(element)的用法 this.optional(element)是jquery.validator.js表单验证框架中的一个函数,用于表单控件的值不为空时才触发验证。 简单来说,就是当表单控件值为空的时候不会进行表单校验,此函数会返回true,表示校验通过,当表单控件
jQuery.validate 表单动态验证 实际上jQuery.validate提供了动态校验的方法。而动态拼JSON串的方式是不支持动态校验的。牺牲jQuery.validate的性能优化可以实现(jQuery.validate的性能优化见图1.2 jQuery.validate源码 )。 也可
自定义验证之这能输入数字(包括小数 负数 ) <script type="text/javascript"> function onlyNumber(obj){ //得到第一个字符是否为负号 var t = obj.value.charAt(0); //先把非数字的都
// 引入了外部的验证规则 import { validateAccountNumber } from "@/utils/validate"; validator.js /*是否合法IP地址*/ export function validateIP(rule, value,cal
VUE开发--表单验证(六十三) 一、常用验证方式 vue 中表单字段验证的写法和方式有多种,常用的验证方式有3种: data 中验证 表单内容: <!-- 表单 --> <el-form ref="rulesForm" :rules="formRul
正则表达式 座机的: 例子: 座机有效写法: 0316-8418331 (010)-67433539 (010)67433539 010-67433539 (0316)-8418331 (0316)8418331 正则表达式写法 0\d{2,3}-\d{7,8}|\(?0\d{2,3}[)-]?\d
var reg = /^0\.[1-9]{0,2}$/;var linka = 0.1;console.log (reg.test (linka)); 0到1两位小数正则 ^(0\.(0[1-9]|[1-9]{1,2}|[1-9]0)$)|^1$ 不含0、0.0、0.00 // 验证是否是[1-10
input最大长度限制问题 <input type="text" maxlength="5" /> //可以 <input type="number" maxlength="5" /> //没有效
js输入验证是否为空、是否为null、是否都是空格 目录 1.截头去尾 trim 2.截头去尾 会去掉开始和结束的空格,类似于trim 3.会去掉所有的空格,包括开始,结束,中间 1.截头去尾 trim str=str.trim(); // 强烈推荐 最常用、最实用 or $.trim(str);
正则表达式语法大全 字符串.match(正则):返回符合的字符串,若不满足返回null 字符串.search(正则):返回搜索到的位置,若非一个字符,则返回第一个字母的下标,若不匹配则返回-1 字符串.replace(正则,新的字符串):找到符合正则的内容并替换 正则.test(字符串):在字符串中
正整数正则表达式正数的正则表达式(包括0,小数保留两位): ^((0{1}.\d{1,2})|([1-9]\d.{1}\d{1,2})|([1-9]+\d)|0)$正数的正则表达式(不包括0,小数保留两位): ^((0{1}.\d{1,2})|([1-9]\d.{1}\d{1,2})|([1-9]+
JS 正则验证 test() /*用途:检查输入手机号码是否正确输入:s:字符串返回:如果通过验证返回true,否则返回false /function checkMobile(s){var regu =/[1][3][0-9]{9}$/;var re = new RegExp(regu);if (r
请输入保留两位小数的销售价的正则: /(^[1-9]([0-9]+)?(\.[0-9]{1,2})?$)|(^(0){1}$)|(^[0-9]\.[0-9]([0-9])?$)/ 1.只能输入英文 <input type="text" onkeyup="value
判断价格的正则表达式 价格的正则表达式 /(^[1-9]\d*(\.\d{1,2})?$)|(^0(\.\d{1,2})?$)/; 1 解析:价格符合两种格式 ^ [1-9]\d*(.\d{1,2})?$ : 1-9 开头,后跟是 0-9,可以跟小数点,但小数点后要带上 1-2 位小数,类似 2,2
文章浏览阅读106次。这篇文章主要介绍了最实用的正则表达式整理,比如校验邮箱的正则,号码相关,数字相关等等,本文给大家列举的比较多,需要的朋友可以参考下。_/^(?:[1-9]d*)$/ 手机号
文章浏览阅读1.2k次。4、匹配中的==、an==、== an9、i9 == "9i"和99p==请注意下面这部分的作用,它在匹配中间内容的时候排除了说明:当html字符串如下时,可以匹配到两处,表示匹配的字符串不包含and且不包含空白字符。说明:在上面的正则表达式中,_gvim正则表达式匹配不包含某个字符串
文章浏览阅读897次。【代码】正则表达式匹配a标签的href。_auto.js 正则匹配herf