正则表达式

一、元字符

eg.

1.\ba\w*\b：匹配以字母a开头的单词——先是某个单词开始处（\b），然后是字母a，然后是任意数量的字母或数字（\w*），最后是单词结束处（\b）

2.\d+ : 匹配一个或更多连续的数字。这里的+是和*类似的元字符，不同的是*匹配重复任意次（可能是0次），而+则匹配重复1次或更多次

3.\b\w{6}\b 匹配刚好6个字母/数字的单词

代码	说明
.	匹配除换行符以外的任意字符
\w	匹配字母或数字或下划线或汉字
\s	匹配任意的空白符（包括空格、制表符Tab、换行符、中文全角空格等）
\d	匹配数字
\b	匹配单词的开始或结束
^	匹配字符串的开始
$	匹配字符串的结束

二、重复

eg.

1.Windows\d+ ：匹配Windows后面跟1个或更多数字

2.^\w+：匹配一行的第一个单词（或整个字符串的第一个单词，具体匹配哪个意思得看选项设置）

代码/语法	说明
*	重复零次或更多次
+	重复一次或更多次
？	重复零次或一次
{n}	重复n次
{n,}	重复n次或更多次
{n,m}	重复n次到m次

三、分枝条件

正则表达式里的分枝条件指的是有几种规则，如果满足其中任意一种规则都应该当成匹配，具体方法是用 | 把不同的规则分隔开。

eg.

1.0\d{2}-\d{8}|0\d{3}-\d{7} ：这个表达式能匹配两种以连字号 | 分隔的电话号码：一种是三位区号，8位本地号(如010-12345678)，一种是4位区号，7位本地号(0376-2233445)。

2.$0\d{2}$[- ]?\d{8}|0\d{2}[- ]?\d{8} ：这个表达式匹配3位区号的电话号码，其中区号可以用小括号括起来，也可以不用，区号与本地号间可以用连字号或空格间隔，也可以没有间隔。你可以试试用分枝条件把这个表达式扩展成也支持4位区号的。

3.\d{5}-\d{4}|\d{5} ：这个表达式用于匹配美国的邮政编码。美国邮编的规则是5位数字，或者用连字号间隔的9位数字。之所以要给出这个例子是因为它能说明一个问题：使用分枝条件时，要注意各个条件的顺序。如果你把它改成\d{5}|\d{5}-\d{4}的话，那么就只会匹配5位的邮编(以及9位邮编的前5位)。原因是匹配分枝条件时，将会从左到右地测试每个条件，如果满足了某个分枝的话，就不会去再管其它的条件了。

四、反义

eg.

1.\S+：匹配不包含空白符的字符串

2.<a[^>]+>：匹配用尖括号括起来的以a开头的字符串

代码/语法	说明
\W	匹配任意不是字母，数字，下划线，汉字的字符
\S	匹配任意不是空白符的字符
\D	匹配任意非数字的字符
\B	匹配不是单词开头或结束的位置
[^x]	匹配除了x以外的任意字符
[^aeiou]	匹配除了aeiou这几个字母以外的任意字符

五、后向引用

使用小括号指定一个子表达式后，匹配这个子表达式的文本(也就是此分组捕获的内容)可以在表达式或其它程序中作进一步的处理。默认情况下，每个分组会自动拥有一个组号，规则是：从左向右，以分组的左括号为标志，第一个出现的分组的组号为1，第二个为2，以此类推。

后向引用用于重复搜索前面某个分组匹配的文本。

分类	代码/语法	说明
捕获	(exp)	匹配exp，并捕获文本到自动命名的组里
	(?<name>exp)	匹配exp，并捕获文本到名称为name的组里，也可写成(?'name'exp)
	(?:exp)	匹配exp，不捕获匹配的文本，也不给此分组分配组号，不改变正则表达式的处理方式
零宽断言	(?=exp)	匹配exp前面的位置
	(?<=exp)	匹配exp后面的位置
	(?!exp)	匹配后面跟的不是exp的位置
	(?<!exp)	匹配前面不是exp的位置
注释	(?#comment)	这种类型的分组不对正则表达式的处理产生任何影响，用于提供注释让人阅读

六、懒惰限定符

代码/语法	说明
*?	重复任意次，但尽可能少重复
+?	重复1次或更多次
??	重复0次或1次，但尽可能少重复
{n,m}?	重复n到m次，但尽可能少重复
{n,}?	重复n次以上，但尽可能少重复

posted @ 2018-09-07 15:47 是卡门啊阅读(177) 评论(0) 收藏举报

刷新页面返回顶部

夜色在你的马尾摇晃

Evil，corrupt，but independent and free.

正则表达式

公告