可以匹配HTML标签中的H1到H6。 [Jj]ack可以匹配字符串Jack或jack。但是,由于表达式[01234567]书写非常不方便,连字符(-)便应用而生,[0-9]等价于[01234567]。[a-z]匹配任何小写字母,[A-Z]匹配任意大写字母。如果要在字符类中包含连字符,则必须包含在第一位,如:[-a]表示表达式匹配-或者a。在字符类中如果^是字符类的第一个字符表示否定该字符串,也就是匹配该字符串外的任意字符,如:[^abc]匹配除了abc以外的任意字符,[^-]匹配除了连字符以外的任意字符,a[^b]匹配a之后不是b的字符串。
表2-1 常用的字符类
字符或表达式 \\w \\W \\s \\S \\d \\D [abc] [^abc] [0-9a-z_A-Z_] \\p{name} \\P{name} 说明 匹配单词字符(包括字母、数字、下划线和汉字) 匹配任意的非单词字符(包括字母、数字、下划线和汉字) 匹配任意的空白字符,如空格、制表符、换行符、中文全角空格等 匹配任意的非空白字符 匹配任意数字 匹配任意的非数字字符 匹配字符集中的任何字符 匹配除了字符集中包含字符的任意字符 匹配任何数字、字母、下划线。等同于\\w 匹配{name}指定的命名字符类中的任何字符 匹配除了{name}指定的命名字符类中之外的任何字符 . [^0-9a-zA-Z_] 匹配除了换行符号之外的任意字符 等同于\\W 2.3 字符转义
表2-2:常用的转义字符
表达式 可匹配 \\r, \\n 代表回车和换行符 \ 制表符 \\\\ 代表 \"\\\" 本身 还有其他一些在后边章节中有特殊用处的标点符号,在前面加 \"\\\" 后,就代表该符号本身。比如:^, $ 都有特殊意义,如果要想匹配字符串中 \"^\" 和 \"$\" 字符,则表达式就需要写
成 \"\\^\" 和 \"\\$\"。
表达式 \\^ \\$ \\. 可匹配 匹配 ^ 符号本身 匹配 $ 符号本身 匹配小数点(.)本身 2.4 反义
在使用正则表达式时,如果需要匹配不在字符类指定的范围内的字符时,可以使用反义规则。其实我们已经使用过反义表达式,如\\W、\\S、\\D、[^abc]等。常用的反义表如下:
表2-3:常用的反义表达式
字符或表达式 \\W 说明 匹配任意不是字母,数字,下划线,汉字的字符 \\S \\D \\B [^x] [^aeiou] 匹配任意不是空白符的字符 匹配任意非数字的字符 匹配不是单词开头或结束的位置 匹配除了x以外的任意字符 匹配除了aeiou这几个字母以外的任意字符 2.4 限定符
正则表达式的元字符一次只能匹配一个位置或一个字符,如果需要匹配零个一个或多个字符时,则需要使用限定符。限定符用于指定允许特定字符或字符集自身重复出现的次数。如{n}表示出现n次;{n,}表示重复至少n次;{n,m}表示至少出现n次最 多m次。常用限定符如下表:
表2-4:常用限定符
字符 * 描述 匹配前面的子表达式零次或多次。例如,zo* 能匹配 \"z\" 以及 \"zoo\"。 * 等价于{0,}。 + 匹配前面的子表达式一次或多次。例如,'zo+' 能匹配 \"zo\" 以及 \"zoo\",但不能匹配 \"z\"。+ 等价于 {1,}。 ? 匹配前面的子表达式零次或一次。例如,\"do(es)?\" 可以匹配 \"do\" 或 \"does\" 中的\"do\" 。? 等价于 {0,1}。 {n} n 是一个非负整数。匹配确定的 n 次。例如,'o{2}' 不能匹配 \"Bob\" 中的 'o',但是能匹配 \"food\" 中的两个 o。 {n,} n 是一个非负整数。至少匹配n 次。例如,'o{2,}' 不能匹配 \"Bob\" 中的 'o',但能匹配 \"foooood\" 中的所有 o。'o{1,}' 等价于 'o+'。'o{0,}' 则等价于 'o*'。 {n,m} m 和 n 均为非负整数,其中n <= m。最少匹配 n 次且最多匹配 m 次。刘, \"o{1,3}\" 将匹配 \"fooooood\" 中的前三个 o。'o{0,1}' 等价于 'o?'。请注意在逗号和两个数之间不能有空格。 *? +? ?? {n}? {n,}? {n,m}? 尽可能少的使用重复的第一个匹配 尽可能少的使用重复但至少使用一次 如果有可能使用零次重复或一次重复。 等同于{n} 尽可能少的使用重复但至少重复n次 介于n次和m次之间,尽可能少的使用重复。 2.5 贪婪、惰性和支配性匹配
惰性匹配:先看字符串中的第一个字母是不是一个匹配,如果单独一个字符还不够就读入下一个字符,如果还没有发现匹配,就不断地从后续字符中读取,只道发现一个合适的匹配,然后开始下一次的匹配。
贪婪匹配:先看整个字符串是不是一个匹配,如果没有发现匹配,它去掉字符串中最后一个字符并再次尝试,如果还没有发现匹配,那么再次去掉最后一个字符,这个过程会一直重复直到发现一个匹配或字符串不剩一个字符为止。
支配性匹配:只尝试匹配整个字符串,如果整个字符串不能产生一个匹配,则不再进行尝试。
我们普通的字符类均是贪婪匹配,如果在字符类后加个问号(?)则表示懒惰匹配,要成为支配性匹配则在懒惰匹配后加个问号(?).
2.6替换
正则表达式0\\d{2}-\\d{8}和0\\d{3}-\\d{7}分别匹配区号为3位和4位的固定电话号码,如果需要同时匹配区号为3位和4位的固定电话号码,可以使用替换满足这一需求。最简单的替换是使用竖线(|)表示。以下表达式匹配了区号为3位号码为8位和区号为4位号码为7位的的电话号码,区号和号码均使用-连接,0\\d{2}-\\d{8}|0\\d{3}-\\d{7}
表2-5 常用替换
字符或表达式 | (?(表达式)yes|no) 说明 匹配竖线(|)左侧或右侧 表达式要么与yes部分匹配要么与no部分匹配,其中no部分可以省略。 (?(name)yes|no) 以name命名的字符串要么与yas部分匹配,要么与no部分pp,其中no部分可以省略 2.7 分组
分组又称为子表达式,即把一个正则表达式的全部或部分分成一个或多个组。其中分组使用圆括号(),分组后把圆括号中的表达式看做一个整体来处理,比如:(abc){1,2}表示abc出现一次或两次的字符串,其中把abc 看做一个整体来进行匹配。
2.8 后向引用
当一个正则表达式被分组后,每一个组将自动被赋予一个组号,该组号可以代表该组的表达式。其中,组号的编制规则为:从左到右,以分组的左括号为标志,第一个组号为1,第二个分组号为2,以此类推。如:(A?(B?(C?)))将产生3个组号,第一组为:(A?(B?(C?)));第二组为: (B?(C?));第三组为:(C?)。
反向引用提供了查找重复字符组的方便方法,反向引用可以使用数字命名(默认名称)的组号,也可以使用指定命名的组号。比如:\\b(\\w)\\1\\b匹配两个字符一样的单词,此表达式和\\b(\\w)\\w\\b不一样,后者两个字符可以不一样。再看,\\b(\\w)(\\d)\\1\\2\\b,匹配一个字符和一个数字然后重复字符和数字。\\b\\w*(\\w+)\\1\\b匹配以至少两个字符一样结尾的单词。\\b(\\w+)\\b\\s+\\1\\b此正则表达式匹配的具体过程如下:
a. 表达式\\b(\\w+)\\b匹配一个单词并且单词的长度至少为1 b. 表达式\\s+匹配一个或多个空白字符
c. 表达式\\1将重复子表达式(\\w+)匹配的内容,及匹配重复的单词 d. 匹配单词的结束位置。
分组不仅可以使用数字作为组号,还可以使用自定义名称作为组号。以下两个正则表达式都是将分组后的子表达式\\w+命名为word. (?\\w+) (?’word’\\w+)因此\\b(\\w+)\\b\\s+\\1\\b和以下正则表达式是等价的,都匹配重复的单词: \\b(?\\w+)\\b\\s+\\k\\b表2-5 后向引用说明表
表达式 \\数字 \\k 说明 使用数字命名的后向引用 使用指定命名的后向引用 表2-6 常用分组说明字符 (expression) 说明 匹配字符串expression,并将匹配的文本保存到自动命名的组里 (? expression) 匹配字符串expression,并将匹配的文本保存到以name命名的变量中,该名称不能包含标点符号,不能以数字开头。 (?:expression) (?!expression) (?=expression) (?<=expression) (?expression) 匹配字符串expression,不保存匹配的文本,也不分配组号 匹配后面不是字符串expression的位置 匹配字符串expression前面的位置 匹配字符串expression后面的位置 匹配前面不是字符串expression的位置 只匹配expression一次 2.9 零宽度断言元字符^、\\b、$都匹配一个位置,并且这个位置满足一定条件。在此把满足一个条件称为断言或零宽度断言。正则表达式中零宽度断言说明如下表:
表2-6 零宽度断言
字符(断言) ^ $ 说明 匹配行的开始位置 匹配行的结束位置 \\A \\Z \\z \\G \\b \\B 匹配必须出现在字符串的开头 匹配必须出现在字符串的结尾或字符串结尾处的换行符(\\n)前 匹配必须出现在字符串的结尾 匹配必须出现在上个匹配结束的地方 匹配单词的开始或结束的位置 匹配不是单词的开始或结束的位置 表达式(?=expression)、(?!expression)、(?<=expression)、和(?(?=expression)又称为零宽度正预测先行断言,它断言自身位置的前面能够匹配表达式expression。以下正则表达式匹配以ed结尾的单词的前面部分:\\b\\w+(?=ed\\b)。 (?<=expression)又称为零宽度正回顾后发断言,它断言自身位置的后面能够匹配表达式expression,以下正则表达式匹配以an开头的单词的后面部分,即匹配单词除了字符串an之外的部分:(?<=\\ban)\\w+\\b
2.10 负向零宽度断言
零宽度断言只能指定或匹配一个位置,而负向零宽度断言与零宽度断言正好相反,它能指定或匹配不是一个位置,即所说的反义。特别是在匹配字符串中不包含指定的字符时,负向零宽度断言特别有用,比如要匹配断言字符a之后不能是字符b的表达式为:
\\b\\w*a(?!b)\\w*\\b
因此该表达式匹配一个单词,并且这个包含字符a并且a后面不是紧随着b
表达式(?!expression)称为负向零宽度断言,它断言自身位置后不能包含expression。以下正则表达式匹配一个z字符串,字符串前三位为字符并且后边不是紧随着数字:\\b\\w{3} (?!\\d+);表达式(?(?2.11匹配选项
匹配选项可以指定正则表达式匹配中的行为,如忽略大小写、处理多行、处理单行、从右到左开始匹配等。常用的匹配选项如下:
表2-7 常用匹配选项
RegexOptions枚举值 ExplicitCapture IgnoreCase IgnorePatternWhitespace MultiLine SingleLine 内联标志 简单说明 n i x m s 只有定义了命名或编号的组才捕获 不区分大小写 消除模式中的非转义空白并启用由#标记的注释。 多行模式,其原理是修改了^和$的含义 单行模式,和MultiLine相对应 2.12 优先级
正则表达式从左到右进行计算,并遵循优先级顺序,这与算术表达式非常类似。下表从最高到最低说明了各种正则表达式运算符的优先级顺序:
表2-8:优先级说明
运算符 \\ (), (?:), (?=), [] *, +, ?, {n}, {n,}, {n,m} ^, $, \\anymetacharacter, anycharacter | 替换 说明 转义符 括号和中括号 限定符 定位点和序列 字符的优先级比替换运算符高,替换运算符允许“m|food”与“m”或“food”匹配。若要匹配“mood”或“food”,请使用括号创建子表达式,从而产生“(m|f)ood”。