python爬虫学习——re模块(正则表达式)

正则表达式常用操作符

.    任何单个字符
[]   字符集,对单个字符给出取值范围 [abc]、[a-z]
[^ ] 非字符集,对单个字符给出排除范围 [^abc]
*    对前一个字符0次或无限次拓展 abc*
+    前一个字符一次或无限次拓展 abc+
?   前一个字符0次或一次拓展  abc?
|    左右表达式任意一个 abc|def
{m}  表示前一个字符出现m次  ab{m}c
{m,n}表示前一个字符出现m-n次(包含n) ab{1,2}c
^     匹配字符串开头 ^abc
$     匹配字符串结尾 abc$
()    分组标记,内部只能使用|
\d    数字,等价于[0-9]
\w    单词字符,等价于[A-Za-z0-9_]

re库主要功能函数

#正则表达式:字符串模式(判断字符串是否符合一定的标准)

import re
#创建模式对象
pat = re.compile("AA")  #此处的AA指的是正则表达式,用来去验证其他的字符串
# m = pat.search("abc")  #search的内容是要匹配的内容
# m = pat.search("ABCAA")
# m = pat.search("AABBCCAAADDFFAAAA")     #search方法进行比对查找

#没有模式对象
# m = re.search("abc","aabc")         #前面的字符串是规则(正则表达式),后面的字符串是被校验的对象
# print(m)

# print(re.findall("a","ADGDajJKHJAa"))

# print(re.findall("[A-Z]+","ADGDajJKHJAa"))

#sub
print(re.sub("a","A","ahdsjafhsdgfb"))  #在第三个字符串中,找到a用A替换

#建议在正则表达式中,被比较的字符串前加个r,不用担心转义字符的问题
print(r"hfuhgd\"")

正则表达式的模式

posted @ 2023-02-25 19:42  鹤城  阅读(17)  评论(0编辑  收藏  举报