1、元字符

. ：匹配除了换行符以外的任意字符

*：代表的不是字符，也不是位置，而是数量——它指定*前边的内容可以连续重复使用任意次以使整个表达式得到匹配。

因此，.*连在一起就意味着任意数量的不包含换行的字符

\b：代表着单词的开头或结尾，也就是单词的分界处

虽然通常英文的单词是由空格，标点符号或者换行来分隔的，但是\b并不匹配这些单词分隔字符中的任何一个，它只匹配一个位置

比如搜索hi，很多单词里包含hi这两个连续的字符，比如him,history,high等等。用hi来查找的话，这里边的hi也会被找出来。如果要精确地查找hi这个单词的话，我们应该使用\bhi\b

比如找的是hi后面不远处跟着一个Lucy，你应该用\bhi\b.*\bLucy\b

\d：匹配一位数字(0，或1，或2，或……)

0\d\d-\d\d\d\d\d\d\d\d匹配这样的字符串：以0开头，然后是两个数字，然后是一个连字号“-”，最后是8个数字(也就是中国的电话号码。当然，这个例子只能匹配区号为3位的情形)。

为了避免那么多烦人的重复，我们也可以这样写这个表达式：0\d{2}-\d{8}。这里\d后面的{2}({8})的意思是前面\d必须连续重复匹配2次(8次)。

\s：匹配任意的空白符，包括空格，制表符(Tab)，换行符，中文全角空格等

\w：匹配字母或数字或下划线或汉字等

^：匹配你要用来查找的字符串的开头

$：匹配你要用来查找的字符串的结尾

^ 和 $ 这两个代码在验证输入的内容时非常有用，比如一个网站如果要求你填写的QQ号必须为5位到12位数字时，可以使用：^\d{5,12}$。

因为使用了^和$，所以输入的整个字符串都要用来和\d{5,12}来匹配，也就是说整个输入必须是5到12个数字，因此如果输入的QQ号能匹配这个正则表达式的话，那就符合要求了。

和忽略大小写的选项类似，有些正则表达式处理工具还有一个处理多行的选项。如果选中了这个选项，^和$的意义就变成了匹配行的开始处和结束处。

例子：

\ba\w*\b匹配以字母a开头的单词——先是某个单词开始处(\b)，然后是字母a,然后是任意数量的字母或数字(\w*)，最后是单词结束处(\b)。

\d+匹配1个或更多连续的数字。这里的+是和*类似的元字符，不同的是*匹配重复任意次(可能是0次)，而+则匹配重复1次或更多次。

\b\w{6}\b 匹配刚好6个字符的单词

2、字符转义：\

如果你想查找元字符本身的话，比如你查找.,或者*,就出现了问题：你没办法指定它们，因为它们会被解释成别的意思。这时你就得使用\来取消这些字符的特殊意义。因此，你应该使用\.和\*。当然，要查找\本身，你也得用\\.

例如：deerchao\.cn匹配deerchao.cn，C:\\Windows匹配C:\Windows。

3、限定符（指定数量的代码）

* 重复零次或更多次

+ 重复一次或更多次

? 重复零次或一次

{n} 重复n次

{n,} 重复n次或更多次

{n,m} 重复n到m次

4、匹配没有预定义元字符的字符集合：在方括号里列出

像[aeiou]就匹配任何一个英文元音字母，[.?!]匹配标点符号(.或?或!)

像[0-9]代表的含意与\d就是完全一致的：一位数字；同理[a-z0-9A-Z_]也完全等同于\w（如果只考虑英文的话）

5、反义：

\W ：匹配任意不是字母，数字，下划线，汉字的字符

\S ：匹配任意不是空白符的字符

\D ：匹配任意非数字的字符

\B ：匹配不是单词开头或结束的位置

[^x] ：匹配除了x以外的任意字符

[^aeiou] ：匹配除了aeiou这几个字母以外的任意字符

例子：\S+匹配不包含空白符的字符串。

<a[^>]+>匹配用尖括号括起来的以a开头的字符串。

posted @ 2021-11-01 14:00 小鱼小鱼hi 阅读(395) 评论(0) 编辑收藏举报

刷新页面返回顶部

小鱼小鱼hi

python3_ 正则匹配