如何解决pexpect 模式“.+”有什么作用?
我有下一个代码:
test.py:
import pexpect
import sys
p = pexpect.spawn("ping 10.192.225.199",encoding="utf-8")
while True:
try:
index = p.expect([".+",pexpect.EOF,pexpect.TIMEOUT],timeout=1)
if index == 0:
print("===")
print(p.after)
print("===")
except Exception as e:
print(e)
执行:
$ python3 test.py
===
PING 10.192.225.199 (10.192.225.199) 56(84) bytes of data.
===
===
64 bytes from 10.192.225.199: icmp_seq=1 ttl=63 time=0.607 ms
===
===
64 bytes from 10.192.225.199: icmp_seq=2 ttl=63 time=0.587 ms
===
...
看起来 .+
可以在一次迭代中获取整行 ping command output
。
但是,有人向我建议this,在官方文档中,它说:
注意模式末尾的 + 和 *
请记住,每当您尝试匹配需要前瞻的模式时,您将始终获得最小匹配(非贪婪)。
例如,以下将始终只返回一个字符:child.expect ('.+')
此示例将成功匹配,但始终不返回任何字符:
child.expect ('.*')
will always return just one character
是什么意思?为什么我可以在我的最小示例中得到完整的一行?不是应该每个循环一个字符吗?
顺便说一句,如果我将.+
更改为.*
,那么正如文档所说:will always return no characters
是非常奇怪的。 .*
的行为与文档所说的相同,但 .+
不是 ...
解决方法
编辑:更改了重点以解决您真正要问的问题,如您的评论中所述。
注意模式末尾的 + 和 *
请记住,每当您尝试匹配需要前瞻的模式时,您将始终获得最小匹配(非贪婪)。
例如,以下将始终只返回一个字符:
child.expect ('.+')
我不知道文档中的这个语句是否正确,但它与当前的行为不符。正则表达式 .+
不不
始终只匹配一个字符,即使单独使用也是如此。在某些情况下,正则表达式 .*
可能匹配零个字符,但并非总是如此。正确的说法是:两个正则表达式都将匹配读取缓冲区中的任何内容,仅此而已。 为什么您的观察结果不同?由于 .+
必须至少消耗一个字符,因此它将触发读取操作——填充读取缓冲区。
说明
请记住,pexpect
是为与交互式进程通信而构建的:它的输入不只是坐在那里等待读取,而是随着时间的推移动态生成并响应事件。因此,除非有理由,否则 pexpect
不会尝试读取输入。如果输入缓冲区为空,并且期望可以用零长度字符串来满足,则不需要进一步读取,因此不会。更一般地说:如果期望可以满足已有的内容,则不会再尝试读取。
这里有一个你可以用你的输入源尝试的实验:
>>> p.expect('6')
0
>>> p.after
'6'
>>> p.expect(".*")
0
>>> p.after
'4 bytes from 142.250.184.238: icmp_seq=38 ttl=112 ...'
这里发生了什么?第一个期望导致读入一行(“64 bytes from ...”),但只消耗了第一个字符。然后 .*
匹配其余的。
您可以使用至少消耗一个字符的单个期望获得相同的效果,例如6.*
或 ..*
等。与 .+
一样,这些将导致读取输入,然后消耗剩余的可用输入。
为了进行比较,请尝试使用真正的非贪婪正则表达式 .*?
和 .+?
。无论您在何处使用它们,它们都将始终分别匹配零个或一个字符。
正如@alexis 所建议的那样,我附加了一个调试器来深入研究代码。
-
第一个实验,如下图所示,我在
index = p.expect([".+",pexpect.EOF,pexpect.TIMEOUT],timeout=1)
处设置了一个断点,并在step over
之前等待 5 秒钟(以确保ping -c 4
完成,以便我可以获得更多输出)。有了这个,我发现只需一次
p.expect
,我就可以获得ping -c 4
的所有输出。所以在我最初的例子中,我只能得到一行p.expect
只是因为当时 pexpect 的缓冲区没有得到这么多数据。 -
第二个实验,如下图所示,我
step in
p.expect
,发现它使用index = searcher.search(window,len(data))
来匹配。只有一次
p.expect
,当window
有434 characters
时,对.+
的期望也会使spawn.after
有434 characters
。
所以,我认为就像追随者的评论一样,文档有些不正确或过时。 .+
肯定不能只匹配缓冲区中的一个字符,长度仅取决于当前缓冲区中的字符数,以及窗口大小。
版权声明:本文内容由互联网用户自发贡献,该文观点与技术仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌侵权/违法违规的内容, 请发送邮件至 dio@foxmail.com 举报,一经查实,本站将立刻删除。