微信公众号搜"智元新知"关注
微信扫一扫可直接关注哦!

grep及正则表达式应用总结

相信学习任何Linux Release操作系统的人都知道“正则表达式、扩展正则表达式”的重要作用,学习好如何利用“正则表达式”来达到我们想要达到的效果,这需要大量的实践、总结。

下面是我针对“正则表达式、扩展正则表达式”的一些认识和理解,不会罗列命令,只说自己的经验,所以简单的命令说明我只是罗列含义(相信你能看明白),重要的知识点,通过grep命令演示并附图解释,希望对看到damiHua博客的你有所帮助。

一、什么是正则表达式?扩展正则表达式?

其实“正则表达式”就是处理字符串的一个标准或公式,你通过“正则表达式”去筛选你想要的字符串,就好像你拿着采购清单去市场采购,清单上面写着10把红木的椅子、一个dell的电脑……,你肯定是按照清单去筛选物品,直到采购完毕,那个清单的作用就好比“正则表达式”。

“扩展正则表达式”是正则表达式的增强版,其中最主要的提升在于提供了用或“|”的形式进行查找字符串。(你只要有个概念就可以,下面会用实例来演示其应用。)

二、正则表达式“元字符”(你可以这样理解:在“正则表达式”中有特殊意义的字符!)意义说明如下:

<1>.:匹配任意单个字符

说明:无需过多解释,仅仅是一个点号。

<2>[]:匹配范围内的任意单个字符

说明:[字符集]只要在[]中的任意字符都需要匹配,比如:如果你要查找xacxbcxdc可以这样匹配x[abd]c,就是代表[]内提供的字符集合中的任意一个[a-z]:代表26个小写字母中的1个,我想你应该明白了,还有很多特定含义的表示方法,如[[:alnum:]]:代表任何数字、字母中的1个字符……,想知道其它的字符集可以去Google,你懂的!

<3>*:匹配前面的字符0次、或多次

说明:.*没错点号和星号的组合代表任意字符任意次!

<4>\?:前面的字符可有可无

说明:因为?有特殊意义,所以需要\这个转义字符(什么是转义字符,Google吧!),ab\?代表a或者ab

<5>\+:前面的字符至少出现1

说明:和\?一样,通过转义字符实现,ab\+代表ababb……

<6>\{m,n\}:匹配前面的字符至少m次,至多n

说明:ab\{1,2\}代表ababb

<7>\{n\}:精确匹配前面的字符n

说明:无需解释,一看就明白了。

<8>^:锚定行首,代表其后的字符必须出现在这行的行首,"^字符……"

说明:how areyou!

What

如果我只想找出以h开头的行,^h,满足你的要求。

<9>$:锚定行尾,代表其前的字符必须出现在这行的行尾,"……字符$"

说明:同上说明。

<10>\<:锚定词首,其后面的任意字符必须作为单词的首部出现

<11>\>:锚定词尾,其前面的任意字符必须作为单词的尾部出现

说明:锚定词首和词尾,一并解释,单词就是非特殊符号组成的连续的字符串,这个单词的概念很重要,这个我会通过下面的实例结合说明,我认为这是一个难点。

<12>\(\):后向引用,把()中的内容作为一个整体去匹配,可以通过\1来代表第一个左括号与之对应的右括号所包括内容\2代表第二个左括号与之对应的右括号所包括内容\3……

说明:这个也是一个不好理解的地方,我会通过实例结合说明。

<14>[^字符集][^a-z]不选择小写字母,意思就是取反。

3、扩展正则表达式“元字符”如下

<1>.:匹配任意单个字符

<2>[]:匹配范围内的任意单个字符

<3>*:匹配前面的字符0次、或多次

<4>?:前面的字符可有可无

<5>+:前面的字符至少出现1

<6>{m,n}:匹配前面的字符至少m次,至多n

<7>{n}:精确匹配前面的字符n

<8>^:锚定行首,代表其后的字符必须出现在这行的行首,"^字符……"

<9>$:锚定行尾,代表其前的字符必须出现在这行的行尾,"……字符$"

<10>\<:锚定词首,其后面的任意字符必须作为单词的首部出现

<11>\>:锚定词尾,其前面的任意字符必须作为单词的尾部出现

<12>():后向引用,把()中的内容作为一个整体去匹配,可以通过\1来代表第一个左括号与之对应的右括号所包括内容\2代表第二个左括号与之对应的右括号所包括内容\3……

<13>[^字符集][^a-z]不选择小写字母,意思就是取反。

<14>|:代表“或”,下面的实例会详细说明它的用法

三、有了筛选标准还要有筛选工具,也就是处理字符串的工具,grep/awk/sed被誉为在Linux中处理字符串的“三驾马车”,以grep为例,下面是说明:

<1>首先介绍一下grep的基本使用方法

grep [OPTIONS] PATTERN[FILE...]

[OPTIONS]

--color=auto/always/never:用颜色显示匹配到的字符串(非常好用的功能,捕获的字符串 带有颜色显示。)

-o:只显示匹配到的字符串

-i:忽略大小写

-v显示不能被模式匹配到的行

-E:使用扩展的正则表达式,还可以使用egrep代替grep -e

-A #:匹配到的行和之后的#

-B #:匹配到的行和之前的#

-C #:匹配到的行和前后各#

PATTERN:文本字符和正则表达式的元字符组成的匹配条件。

<2>grepegrep工作在贪婪模式,也就是最长匹配原则,如果你的搜索条件是a.*b(意思是找a中间是任意字符b结束的字符串,你应该懂的)搜索的字符串是abxxxxbssdebxx匹配的结果应该是abxxxxbssdeb

四、以下的实例是我在学习正则表达式时候经常出现的问题,汇总说明如下:

<1>不理解或“|”的用法,不理解词首、词尾的锚定。我想要查找/etc/passwd中含有fedora或者root或者user1这三个单词的行,请体会我下面的两段代码查找模式。

wKioL1Ufpz-iSnEvAAECoCXwnxs124.jpg

1

说明:也许你已经看出来了,图1这段代码是错的,因为xuser1fedoraaca/root(中的root这个字符串)都已经查找出来了,其实这段代码的意思是查找以fedora为词首的单词或者root这个字符串或者以user1为词尾的单词,这不是我想要的结果,图2是正确的代码,仔细体会一下,分组中的数据作为一个整体,配合在锚定词首和词尾,查找完整的单词。

wKioL1Ufp2WRcQ8DAAC6JX2eiUk419.jpg

2

<2>3代码,充分利用egrep的贪婪模式取出路径的目录名(/etc/passwd/etc/就是目录名,查找路径名的命令是dirname,查找基名的命令是basename,可以man一下其用法)。

wKioL1Ufp6nzYI0FAAE-8eL_-lc240.jpg

3

说明:.*/不管你有多少个目录分隔符/,我只提取最后一个,找出目录名,另外代码的含义,看看就应该明白。

<3>利用字符集、词首词尾锚定,定义合理的IP地址,这道题也是需要充分理解什么是锚定词首、词尾,并结合“|”或应用的一道题。

wKioL1Ufp-rSE3uHAAFZ1_UkKTk591.jpg

4

<4>5是分组引用的利用,找出/etc/passwd中以一个单词开头并以相同单词结尾的行,我已经做了alias grep=grep �color=auto,所以你看到的筛选结果会有颜色。

wKiom1UfptHhHFkXAAD5CacNKYU613.jpg

5

说明:相信你已经看明白了其中的含义。

总结:如果你和我一样也是一个刚刚踏入Linux奇妙世界的人来说,应该花时间去真正理解这些正则表达式中“元字符”的意义,他们就好像阿拉伯数字一样,组合的形式多种多样,所以数学才那么深奥,如果没有理解这些“元字符”的意义,盲目的写模式,你会浪费很多时间和精力。

以上的内容其实是针对那些有一些正则表达式基础的“战友”看的,我觉得网上的内容只是解惑,给你某些方面的灵感,想要弄懂正则表达式或者grep用法,只有找一本详细的资料,塌心学习,如果你根本没用过正则表达式,那你很难完全明白以上的内容

我只是用我的语言描述了自己理解的正则表达式,如果有需要交流的“战友”可以留名(本人qq865765761)!共同学习Linux

版权声明:本文内容由互联网用户自发贡献,该文观点与技术仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌侵权/违法违规的内容, 请发送邮件至 dio@foxmail.com 举报,一经查实,本站将立刻删除。

相关推荐