python之正则表达式 - 哈密瓜不甜

　　"\"：反斜杠用于注释元字符，后面也可以加不同的字符表示特殊的含义。

　　“\b”：匹配的是开头和结尾

　　".":匹配除了换行符之外的所有字符

　　"\d"：匹配任何十进制数，类似于[0-9]

　　"\s":匹配任何的空白字符，包括空格，tab，换行符等

　　"\w"：匹配任何字母、数字、下划线或汉字

　　"^":匹配字符串的开始

　　"$"：匹配字符串的结束

　　"\W"、"\S"、"\D"、"\B"：这些和上面的元字符小写成对应的反义关系。

　　"[^abc]":匹配除了abc以外的任意字符

　　"*":代表前面的内容可以任意次的被匹配

　　"+"：匹配重复一次或更多次

　　"?"：重复零次或一次

　　"{n}"：重复n次

　　"{n,}":重复n次或更多次

　　"{n,m}"：重复n到m次

在python里使用正则模块re来处理正则表达式：一般先生成pattern = re.compile(r'\d+'),然后用re提供的执行匹配函数进行匹配。

·　　re.match(pattern,string)：只从字符串的开始位置匹配，开始位置不存在返回错误。

　　re.search(pattern,string):会从整个字符的任意位置开始匹配。

　　如果match(),search()没有匹配到符合的子串，会返回None；如果匹配到，就会返回一个"MatchObject"实例。

　　关于"MatchObject"的相关方法：group()是返回匹配到的字符串，start()是返回匹配开始的位置，end()是返回匹配结束的位置，span()是返回一个元组（包含匹配开始结束的位置）。

　　re.findall(pattern,string)：发现所有匹配的子串，并把它们作为一个列表返回。

　　re.finditer(pattern,string)：发现所有匹配的子串，并把它们作为一个迭代器返回。

发表于 2018-09-26 19:52 哈密瓜不甜阅读(153) 评论(0) 收藏举报