微信公众号搜"智元新知"关注
微信扫一扫可直接关注哦!

正则表达式基础篇

正则表达式基础篇

正则表达式的函数库:

1. PCRE,与Perl语言兼容的正则表达式函数

2. POSIX。

【语法规则】

一.原子:
原子是正则表达式的最基本的组成单位,每个模式中至少包含一个原子。原子是由所有未显示指定为元字符的打印和非打印字符组成,

1) 普通字符作为原子

包括大写小写字母,所有的数字。

2) 一些特殊字符和元字符作为原子

有特殊意义的字符可以使用/转义。

3) 一些非打印字符作为原子

非打印字符就是在字符串中的格式控制符号,不可显示的。

正则表达式中常见的非打印字符

原子字符

含义描述

\f

匹配一个换页符

\n

匹配一个换行符

\r

匹配一个回车符

\t

匹配一个制表符

\v

匹配一个垂直制表符

注意:

‘/\n/’—在windows系统中匹配字符串中是否有回车出现。

‘/\r\n/’—在Linux系统中用于匹配字符串中是否有回车。

4) 使用通用字符类型作为原子

正则表达式中常见的通用字符类型

原子字符

含义描述

\d

匹配任意一个十进制数字等价于[0-9]

\D

匹配任意一个除十进制数字以外的数字,等价于[^0-9]

\s

匹配任意一个空白字符,等价于[\f\n\r\t\v]

\S

匹配除空白字符以外的任意一个字符,等价于[^\f\n\r\t\v]

\w

匹配任意一个数字,字母或下划线 等价于[0-9a-zA-Z]

\W

匹配除数字,字母或下划线以外的任意字符,等价于[^0-9a-zA-Z]

5) 自定义原子表([])作为原子

使用原子表可以定义一组彼此地位平等的原子,例如:

‘/[ja]sp/’ –可以匹配asp和jsp两种。

二.元字符

所谓元字符就是用于构建正则表达式的具有特殊含义的字符,例如:’*’,’、’,’+’,’?’等。

元字符不能单独出现,是用来修饰原子的,可使用\进行转义,使其失去特殊意义。

正则表达式的元字符

元字符

含义描述

*

匹配0次,1次或多次其前的原子

+

匹配1次或多次其前的原子

匹配0次或1次其前的原子

.

匹配除了换行符外的任意字符

|

匹配两个或多个分支

{n}

其前面的原子恰好出现n次

{n,}

其前面的原子出现至少n次

{n,m}

其前面的原子出现至少n次,最多m次

^或\A

匹配字符串开始的位置

$或\Z

匹配输入字符串的结束位置

\b

匹配单词的边界

\B

匹配除单词边界以外的部分

[]

匹配方括号中指定的任意一个原子

[^]

匹配除方括号中的原子以外的任意一个字符

()

匹配其整体为一个原子,即模式单元,可以理解为多个单个原子组成的大原子

1. 限定符

限定符用来指定正则表达式的一个给定原子必须要出现多少次才能满足匹配。有“*”,“+”,“?”,“{n}”,“{n,}”,“{n,m}”六种限定符,他们之间主要的区别就是重复匹配的次数不同。

2. 边界限制

用来限定字符串或单词的边界范围,以获得更准确的匹配结果。元字符“^和$分别指字符串的开始和结束”,而“\b”用于描述字符串中每个单词的前或后界。

3. 句号

.可匹配目标中的任意一个字符,包括不可打印字符。

4. 模式选择符(|)

“|”选择符优先级最低,用来分隔多选一模式。

5. 模式单元

使用元字符“()”将多个原子组成大的原子,当作一个独立的单元使用 。

三.模式修正符

模式修正符号:

模式修正符号

功能描述

i

在和模式匹配时不区分大小写

x

模式中的空白忽略不计,除非被转义

版权声明:本文内容由互联网用户自发贡献,该文观点与技术仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌侵权/违法违规的内容, 请发送邮件至 dio@foxmail.com 举报,一经查实,本站将立刻删除。

相关推荐


正则替换html代码中img标签的src值在开发富文本信息在移动端展示的项目中,难免会遇到后台返回的标签文本信息中img标签src属性按照相对或者绝对路径返回的形式,类似:<img src="qinhancity/v1.0.0/ima
正则表达式
AWK是一种处理文本文件的语言,是一个强大的文件分析工具。它是专门为文本处理设计的编程语言,也是行处理软件,通常用于扫描,过滤,统计汇总等工作,数据可以来自标准输入也可以是管道或文件。当读到第一行时,匹配条件,然后执行指定动作,在接着读取第二行数据处理,不会默认输出。如果没有定义匹配条件,则是默认匹配所有数据行,awk隐含循环,条件匹配多少次,动作就会执行多少次。逐行读取文本,默认以空格或tab键为分割符进行分割,将分割所得的各个字段,保存到内建变量中,并按模式或或条件执行编辑命令。与sed工作原理相比:s
正则表达式是特殊的字符序列,利用事先定义好的特定字符以及他们的组合组成了一个规则,然后检查一个字符串是否与这种规则匹配来实现对字符的过滤或匹配。我们刚才在学习正则表达式的时候,我们表示数字,字母下划线的时候是用w表示的,为什么我们在书写的时候用的是w?我们可以发现我们分割空格的话,并没有达到我们预期的效果,这里我们可以使用正则表达式的方式进行分割。我们可以发现,我们和上面得到的结果不一致,既然出错了,肯定是我们的使用方式不对。看到这里我们就能感受到正则表达式的作用了,正则表达式是字符串处理的有力工具。
Python界一名小学生,热心分享编程学习。
收集整理每周优质开发者内容,包括、、等方面。每周五定期发布,同步更新到和。欢迎大家投稿,,推荐或者自荐开源项目/资源/工具/文章~
本文涉及Shell函数,Shell中的echo、printf、test命令等。
常用正则表达,包括: 密码、 手机号、 身份证、 邮箱、 中文、 车牌号、 微信号、 日期 YYYY-MM-DD hh:mm:ss、 日期 YYY-MM-DD、 十六进制颜色、 邮政编号、 用户名、 QQ号
一、python【re】的用法1、re.match函数·单一匹配-推荐指数【★★】2、re.search函数·单一匹配-推荐指数【★★★★★】3、re.findall函数·多项匹配-推荐指数【★★★★★】4、re.finditer函数·多项匹配-推荐指数【★★★★】5、re.sub函数·替换函数-推荐指数【★★★★】二、正则表达式示例·总有一款适合你1、正则表达式匹配HTML指定id/class的标签2、正则表达式匹配HTML中所有a标签中的各类属性值3、获取标签的文本值
1.借助词法分析工具Flex或Lex完成(参考网络资源)2.输入:高级语言源代码(如helloworld.c)3.输出:以二元组表示的单词符号序列。通过设计、编制、调试一个具体的词法分析程序,加深对词法分析原理的理解,并掌握在对程序设计语言源程序进行扫描过程中将其分解为各类单词的词法分析方法。由于各种不同的高级程序语言中单词总体结构大致相同,基本上都可用一组正则表达式描述,所以构造这样的自动生成系统:只要给出某高级语言各类单词词法结构的一组正则表达式以及识别各类单词时词法分析程序应采取的语义动作,该系统