微信公众号搜"智元新知"关注
微信扫一扫可直接关注哦!

字符串修剪的两种常见正则表达式方法之间的Perl性能是什么?

所以我正在研究一个执行大量处理的Perl脚本(没有太复杂,但很多),并决定做一些基准来比较修剪字符串的两种常用方法.

第一种方法快速单行:

$word =~ s/^\s+|\s+$//g;

第二种方法有点长,但做同样的事情:

$word =~ s/^\s+//;
$word =~ s/\s+$//;

对于我的基准测试,我从一个包含4000万行的文件中读取脚本,每个行都进行修剪(除此之外什么也没做).平均线长度小于20个字节.

第一种方法平均需要87秒才能完成.
第二种方法平均需要27秒才能完成.
不进行处理(只读线,继续)平均需要16秒.

第一种方法(第一次传递)将匹配所有前导或尾随空格,然后将其删除,然后匹配并删除另一侧的前导/尾随空格.
第二种方法匹配并删除所有前导空格,然后匹配并删除所有尾随空格.

也许我在这里错了,但为什么第二种方法比第一种方法快3倍?

解决方法

从某种意义上说,锚定的非回溯模式可以更好地进行优化(实际上是从已知字符位置开始的单个前向/后向顺序扫描);

有可能’选项'(|)使优化器退避,你得到标准的回溯,非常糟糕,因为许多空间可能会发生不拖尾

版权声明:本文内容由互联网用户自发贡献,该文观点与技术仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌侵权/违法违规的内容, 请发送邮件至 dio@foxmail.com 举报,一经查实,本站将立刻删除。

相关推荐