正则指引之字符组

普通字符组

字符组就是一组字符，在正则表达式中，它表示“在同一个位置可能出现的各种字符”，其写法是在一对方括号 [ 和 ] 之间列出所有可能出现的字符，简单的字符组比如 [ab]，[314]，[#.?] 。在解决一些常见问题时，使用字符组可以大大简化操作。下面举“匹配数字字符”的例子来说明（java）：

......
charStr.matches("[0123456789]");

charStr是需要判断的字符串，而 [0123456789] 则是以字符串形式给出的正则表达式，它是一个字符组，表示“这里可以是0，1，2，3，4，5，6，7，8，9中的任意一个字符。只要charStr与其中任何一个字符相同即为匹配”。

不同语言使用正则表达式的方法也不相同。如果仔细观察会发现Java，.Net，Python，PHP中的正则表达式，都要以字符串形式给出，两端都有双引号""，而ruby和javascript中的正则表达式则不必如此，只在首尾有两个斜线字符/。这也是不同语言中使用正则表达式的不同之处。

字符组中的字符排列顺序并不影响字符组的功能，出现重复字符也不会影响，所以 [0123456789] 完全等价于 [9876543210] ，[9987120934556]。不过，代码总是要容易编写，方便阅读，正则表达式也是一样，所以一般并不推荐在字符组中出现重重字符。而且，还应该让字符组中的字符排列更符合谁知习惯，比如 [0123456789]。为此，正则表达式提供了范围表示法（range），它更直观，能进一步简化字符组。

所谓“-范围表示法”，就是用 [x-y] 的形式表示x到y整个范围内的字符，省去一一列出的麻烦，这样 [0123456789]就可以表示为 [0-9]。你可能会问，“-范围表示法”的范围是如何确定的？为什么要写作 [0-9]，而不写作 [9-0]？要回答这个问题，必须了解范围表示法的实质。在字符组中，- 表示的范围，一般是根据字符对应的码值（Code Point，也就是字符在对应编码表中的编码的数值）来确定的，码值小的字符在前，码值大的字符在后。在ASCII编码中（包括各种兼容ASCII的编码中），字符0的码值是48（十进制），字符9的码值是57，所以[0-9]等价于[0123456789]，而[9-0]则是错误的范围，因为9的码值大于0，所以会报错。如果知道0～9的码值是48～57，a～z的码值是97~122，A～Z的码值是65～90，能不能用 [0~z]统一表示数字字符，小写字母，大写字母？答案是勉强可以，但不推荐这么做。根据惯例，字符组的范围表示法都表示一类字符（数字字符是一类，字母字符也是一类），所以虽然[0-9]，[a-z]都是很好理解的。

在字符组中可以同时并列多个“-范围表示法”，字符组 [0-9a-zA-Z] 可以匹配数字，大写字母或小写字母；字符组 [0-9a-fA-F] 可以匹配数字，大，小写形式的a~f，它可以用来验证十六进制字符。

在不少语言中，还可以用转义序列 \xhex 来表示一个字符，其中 \x 是固定前缀，表示转义序列的开头，num是字符对应的码值，是一个两位的十六进制数值。比如字符A的码值是41（十进制则为65）,所以也可以用 \x41表示。

字符组中有时会出现这种表示法，它可以表示一些难以输入或者难以显示的字符，比如 \x7F；也可以用来方便地表示某个范围，比如所有ASCII字符对应的字符组就是 [\x00-\x7F]。这种表示法很重要，依靠这种表示法可以很方便地匹配所有的中文字符（后面再讲）。

元字符与转义

在上面的例子里，字符组中的横线 - 并不能匹配横线字符，而是用来表示范围，这类字符叫做元字符（Meta-character）。字符组的开方括号[，闭方括号]都算元字符。在匹配中，它们有着特殊的意义。但是，有时候并不需要表示这些特殊意义，只需要表示普通字符（比如“我就想表示横线字符 - ”），此时就必须做特殊处理。

先来看字符组中的 -，如果它紧邻着字符组中的开方括号 [，那么它就是普通字符，其他情况下都是元字符；而对于其他元字符，取消特殊含义的做法都是转义，也就是在正则表达式中的元字符之前加上反斜线字符 \ 。

如果要在字符组内部使用横线 - ，最好的办法是将它排列在字符组的最开头。[-09]就是包含三个字符 -，0，9的字符组；[0-9]是包含0~9这10个字符的字符组，[-0-9]则是由“-范围表示法”0~9和横线 - 共同组成的字符组，它可以匹配11个字符。

//作为普通字符
Stringtext="-";
Patternp=Pattern.compile("[-09]");
Matcherm=p.matcher(text);
System.out.println(m.matches());
//作为元字符
Stringtext="-";
Patternp=Pattern.compile("[0-9]");
Matcherm=p.matcher(text);
System.out.println(m.matches());
//转义后作为普通字符
Stringtext="-";
Patternp=Pattern.compile("[0\\-9]");
Matcherm=p.matcher(text);
System.out.println(m.matches());

仔细观察会发现，在正文里说“在正则表达式中的元字符之前加上反斜线字符 \ ”，而在代码里写的却不是 [0\-9]，而是 [0\\-9]。这并不是错误。因为在这段程序里，正则表达式是以字符串（String）的方式提供的，而字符串本身也有关于转义的规定（你或许记得，在字符串中有 \n，\t之类的转义序列）。上面说的“正则表达式”，其实是经过“字符串转义处理”之后的字符串的值，正则表达式 [0\-9]包含6个字符：[，0，\，－，9，]，在字符串中表达这6个字符；但是在源代码里，必须使用7个字符：\需要转义成\\，因为处理字符串时，反斜线和之后的字符会被认为是转义序列（Escape Sequence），比如 \n，\t，都是合法的转义序列，然而 \- 不是。

继续看转义，如果希望在字符组中列出闭方括号 ]，比如 [012]345]，就必须在它之前使用反斜线转义，写成 [012\]345]，否则正则表达式将]与最近的[匹配，这个表达式就成了“字符组[012]加上4个字符345]”，它能匹配的是字符串0345]或1345]或2345]，却不能匹配 ]。

//未转义的]
Stringtext="0345]";
Patternp=Pattern.compile("[012]345]");
Matcherm=p.matcher(text);
System.out.println(m.matches());
//转义的]
Stringtext="]";
Patternp=Pattern.compile("[012\\]345]");
Matcherm=p.matcher(text);
System.out.println(m.matches());

除去字符组内部的 - ，其他元字符的转义都必须在字符之前添加反斜线，[ 的转义也是如此。如果只希望匹配字符串 [012]是不行的，因为这会被识别为一个字符组，它只能匹配0,1,2这三个字符中的任意一个，而必须转义，把正则表达式写作 \[012]，请注意，只有开方括号 [ 需要转义，闭方括号 ] 不需要转义：

//取消其他元字符的特殊含义
Stringtext="[012]";
Patternp=Pattern.compile("\\[012]");
Matcherm=p.matcher(text);
System.out.println(m.matches());

排除型字符组

在方括号[...]中列出希望匹配的所有字符，这种字符组叫做“普通字符组”，它的确非常方便。不过，也有些问题是普通字符组不能解决的。

给定一个由两个字符构成的字符串str，要判断这两个字符是否都是数字字符，可以用[0-9][0-9]来匹配。但是，如果要求判断的是这样的字符串——第一个字符不是数字字符，第二个字符才是数字字符（比如 A8，x6）——应当如何办？数字字符的匹配很好处理，用[0-9]即可；“不是数字”则很难办——不是数字的字符太多了，全部列出几乎不可能，这时就应当使用排除型字符组。排除型字符组（Negated Character Class）非常类似普通字符组 [...]，只是在开方括号 [ 之后紧跟一个脱字符 ^ ，写作 [^...]，表示“在当前位置，匹配一个没有列出的字符”。所以[^0-9]就表示“0~9之外的字符”，也就是“非数字字符”。那么上面那个问题就可以用[^0-9][0-9]解决了。例：

//使用排除型字符组
Stringtext="A8";
Patternp=Pattern.compile("[^0-9][0-9]");
Matcherm=p.matcher(text);
System.out.println(m.matches());

排除型字符组看起来很简单，不过新手常常会犯一个错误，就是把“在当前位置匹配一个没有列出的字符”理解成“在当前位置不要匹配列出的字符”，两者其实不同的，后者暗示“这里不出现任何字符也可以”。排除型字符组必须匹配一个字符，这点一定要记住。例：

//排除型字符组必须匹配一个字
Stringtext="A8";
Patternp=Pattern.compile("[^0-9][0-9]");
Matcherm=p.matcher(text);
System.out.println(m.matches());//true
text="8";
Matcherm1=p.matcher(text);
System.out.println(m1.matches());//false

除了开方括号 [ 之后的 ^，排除型字符组的用法与普通字符组几乎完全相同，唯一需要改动的是：在排除型字符组中，如果需要表示横线字符 - （而不是用于“-范围表示法”），那么 - 应该紧跟在 ^ 之后；而在普通字符组中，作为普通字符的横线 - 应该紧跟在开方括号之后：

//在排除型字符组中，紧跟在^之后的-不是元字符
Stringtext="-";
Patternp=Pattern.compile("[^-09]");
Matcherm=p.matcher(text);
System.out.println(m.matches());//false
text="8";
Matcherm1=p.matcher(text);
System.out.println(m1.matches());//true

在排除型字符组中，^ 是一个元字符，但只有它紧跟在 [ 之后时才是元字符，如果想表示“这个字符组中可以出现 ^ 字符”，不要让它紧挨着 [ 即可，否则就要转义。如例：

//匹配一个012之外的字符
Stringtext="^";
Patternp=Pattern.compile("[^012]");
Matcherm=p.matcher(text);
System.out.println(m.matches());//true
//匹配4个字符之一：012^
Patternp1=Pattern.compile("[0^12]");
Matcherm1=p1.matcher(text);
System.out.println(m1.matches());//true
//^紧跟在[之后，但已经转义成普通字符，等于上面的表达式，不推荐
Patternp2=Pattern.compile("[\\^012]");
Matcherm2=p2.matcher(text);
System.out.println(m2.matches());//true

字符组简记法

用[0-9]，[a-z]等字符组，可以很方便地表示数字字符和小写字母字符。对于这类常用的字符组，正则表达式提供了更简单的记法，这就是字符组简记法（shorthands）。

常见的字符组简记法有 \d，\w，\s。从表面上看，它们与[...]完全没联系，其实是一致的。其中 \d 等价于 [0-9]，其中的d代表“数字（digit）”；\w 等价于 [0-9a-zA-Z_]，其中的w代表“单词字符（word）”； \s 等价于 [ \t\r\n\v\f]（第一个字符是空格），s表示“空白字符（space）”。下例说明了这几个字符组简记法的典型匹配：

Stringtext="8";
Patternp=Pattern.compile("\\d");
Matcherm=p.matcher(text);
System.out.println(m.matches());//true
text="a";
Patternp1=Pattern.compile("\\w");
Matcherm1=p1.matcher(text);
System.out.println(m1.matches());//true
text="\t";
Patternp2=Pattern.compile("\\s");
Matcherm2=p2.matcher(text);
System.out.println(m2.matches());//true

一般印像中，单词字符似乎只包含大小写字母，但是字符组简记法中的“单词字符”不只有大小写单词，还包含数字字符和下画线_，其中的下画线 _ 尤其值得注意：在进行数据验证时，有可能只容许输入“数字和字母”，有人会人偷懒用 \w 验证，而忽略了 \w 能匹配下画线，所以这种匹配不严格，[0-9a-zA-Z]才是准确的选择。

“空白字符”并不难定义，它可以是空格字符，制表符\t，回车符\r，换行符\n等各种“空白”字符，只是不方便展现（因为显示和印刷出来都是空白）。不过这也提醒我们注意，匹配时看到的“空白”可能不是空格字符，因此， \s 才是准确的选择。

字符组简记法可以单独出现，也可以使用在字符组中，比如 [0-9a-zA-Z]也可以写作[\da-zA-Z]，所以匹配十六进制字符的字符组可以写成 [\da-fA-F]。字符组简记法也可以用在排除型字符组中，比如 [^0-9]就可以写成[^\d]，[^0-9a-zA-Z_]就可以写成 [^\w]，代码如下：

Stringtext="8";
//在普通字符组内
Patternp=Pattern.compile("[\\da-zA-Z_]");
Matcherm=p.matcher(text);
System.out.println(m.matches());//true
//在排除型字符组内
Patternp1=Pattern.compile("[^\\w]");
Matcherm1=p1.matcher(text);
System.out.println(m1.matches());//false

相对于 \d，\w和\s 这三个普通字符组简记法，正则表达式也提供了对应排除型字符组的简记法：\D，\W和\S ——字母完全一样，只是改为大写。这些简记法匹配的字符互补：\s能匹配的字符，\S一定不能匹配；\w能匹配的字符，\W一定不能匹配；\d能匹配的字符，\D一定不能匹配。例：

//\d和\D
Stringtext="8";
Patternp=Pattern.compile("\\d");
Patternpp=Pattern.compile("\\D");
Matcherm=p.matcher(text);
Matchermm=pp.matcher(text);
System.out.println(m.matches());//true
System.out.println(mm.matches());//false
//\w和\W
text="a";
Patternp1=Pattern.compile("\\w");
Patternpp1=Pattern.compile("\\W");
Matcherm1=p1.matcher(text);
Matchermm1=pp1.matcher(text);
System.out.println(m1.matches());//true
System.out.println(mm1.matches());//false
//\s和\S
text="\t";
Patternp2=Pattern.compile("\\s");
Patternpp2=Pattern.compile("\\S");
Matcherm2=p2.matcher(text);
Matchermm2=pp2.matcher(text);
System.out.println(m2.matches());//true
System.out.println(mm2.matches());//false

妥善利用这种互补的属性，可以得到一些非常巧妙的效果，最简单的应用就是字符组[\s\S]。初看起来，在同一个字符组中并列两个互补的简记法，这种做法有点奇怪，不过仔细想想就会明白， \s和\S组合在一起，匹配的就是“所有的字符”（或者叫“任意字符”）。许多语言中的正则表达式并没有直接提供“任意字符”的表示法，所以 [\s\S\，[\w\W]，[\d\D]虽然看起来有点古怪，但确实可以匹配任意字符（注：许多关于正则表达式的文档说，点号（.）能匹配任意字符。但在默认情况下，点号其实不能匹配换行符！！！）。

关于字符组简单法，最后需要补充两点：第一，如果字符组中出现了字符组简记法，最好不要出现单独的 - ，否则可能引起错误，比如 [\d-a]就很迷惑，在有些语言中，- 会被作为普通字符，而有些语言中，这样写会报错；第二，以上说的 \d，\w，\s的匹配规则，都是针对ASCII编码而言，也叫ASCII匹配规则。但是，目前一些语言中的正则表达式已经支持了Unicode字符，那么数字字符，单词字符，空白字符的范围，已经不仅仅限于ASCII编码中的字符（后面再讲）。

字符组运算

有些语言为字符组提供了更强大的功能，比如Java和.Net就提供了字符组运算的功能，可以在字符组内进行集合运算，在某些情况下这种功能非常实用。

如果要匹配所有的元音字母，可以用 [aeIoU]，但是要匹配所有的辅音字母却没有什么方便的办法，最直接的写法是[b-df-hj-np-tv-z]，不但烦琐，而且难理解。其实，从26个字母中“减去”元音字母，剩下的就是辅音字母，如果有办法做个“减法”，就方便多了。Java语言中提供了这样的字符组：[[a-z]&&[^aeIoU]]表示除元音字母之外的所有字符（还包括大写字母，数字和各种符号），两者取交集，就得到“26个英文字母中，除去5个元音字母，剩下的21个辅音字母”。示例：

//字符组运算
Stringtext="p";
Patternp=Pattern.compile("[[a-z]&&[^aeIoU]]");
Matcherm=p.matcher(text);
System.out.println(m.matches());//true

POSIX字符组

前面介绍了常用的字符组，但是在某些文档中，你可能会发现类似 [:digit:]，[:lower:]之类的字符组，看起来不难理解（digit就是“数字”，lower就是“小写”）但又很奇怪，它们就是POSIX字符组（POSIX Character Class）。因为某些语言的文档中出现了这些字符组，为避免困惑，这里有必要做个简要介绍。如果只使用常用的编程语言，可以忽略文档中的POSIX字符组，也可以忽略本节；如果想了解POSIX字符组，或者需要在Linux/UNIX下的各种工具中使用正则表达式，最好阅读本节。（注：你书上既然这样说，而我又只在Java中使用，这节的内容我也就过滤了，不写出来了！！！）

原文地址：https://www.jb51.cc/regex/360835.html

正则指引之字符组

相关推荐