正则表达式

是什么? 通过一个规则,来从一段字符串中找到符合规则的内容/判断某段字符串是否符合规则

有什么用?

注册页/网页上要求你输入一个信息判断你输入的信息是否格式正

爬取数据从网页上把代码以字符串的形式下载回到内存,提取这个大字符串中我想要的内容了

正规规则

1.字符组约束字符中某一个字符位置上的值是什么,只要是出现在字符组中的内容都算匹配到了

2.'[3-9]' 从小到达的顺序到底是根据 asc码的顺序来的

3.匹配数字 [0-9] 匹配字母[A-Za-z] 匹配数字和字母[0-9a-zA-Z]

元字符:

元字符	匹配内容
.	匹配除换行符意外的任意字符
\w	匹配字母或数字或下划线
\s	匹配任意的空白符
\d	匹配数字
\n	匹配一个换行符
\t	匹配一个制表符
\b	匹配一个单词的结尾
^	匹配字符串的开始
$	匹配字符串的结尾
\W	匹配非字母或数字或下划线
\D	匹配非数字
\S	匹配非空白符
a\|b	匹配字符a或字符b
()	匹配括号内的表达式,也表示一个组
[...]	匹配字符组中的字符
[^...]	匹配除了字符组中字符的所有字符

量词 :

量词	用法说明
*	重复零次或者更多次
+	重复一次或更多次
?	重复零次或一次
{n}	重复n次
{n,}	重复n次或更多次
{n,m}	重复n到m次

 findall 和 分组的问题
import re
# ret = re.findall('\d+(?:\.\d+)?','1.2345+4.3')
# ?:写在一个分组的最开始,表示在findall方法中取消这个分组的优先级
# 1.2345  4.3
# .2345   .3
# print(ret)
# ret= re.search('\d+(\.\d+)?','1.2345+4.3')
# print(ret.group())

# ret = re.findall('www.(?:baidu|oldboy).com', 'www.oldboy.com')
# print(ret)

# search
# ret = re.match('\d+', 'hello,alex3714')
# print(ret)

# 'aa|bb'.split('|')
# split中如果带有分组,会在分割的同时保留被分割内容中带分组的部分
# ret = re.split('(\d\d)','alex83wusir38egon20')
# print(ret)

# ret = re.sub('\d+','sb','alex83wusir38egon20',2)
# print(ret)

# ret = re.subn('\d+','sb','alex83wusir38egon20')
# print(ret)

# 节省时间
# obj = re.compile('\d{3}')  #将正则表达式编译成为一个 正则表达式对象，规则要匹配的是3个数字
# print(obj)
# ret = obj.search('abc123eeee') #正则表达式对象调用search，参数为待匹配的字符串
# print(ret.group())
# ret = obj.search('abc444eeee') #正则表达式对象调用search，参数为待匹配的字符串
# print(ret.group())

# finditer
# 迭代功能的
# findall

# 节省空间的
# ret = re.finditer('\d+','12aas14jsk38947cjhxj83')
# print(ret)
# for i in ret:
#     print(i.group())

# 基础查找 findall(分组优先显示) search match
# 替换分割 split(分组保留) sub subn
# 代码优化 compile finditer

# 分组命名
# html标签语言
# html是一种代码
# 对于浏览器来说 浏览器和代码之间有一种约定
# 写在一个标识符之内的代码 可以有一种独立的格式
# 标识符
# <h1>sgjkagjgdjkf</h1>

# 给分组起名字 (?P<tag>正则表达式),使用分组的名字(?P=tag)
# ret = re.search('<(?P<tag>\w+?)>\w+</(?P=tag)>',"<b>hello</b>")
# print(ret.group())
# print(ret.group('tag'))

# 根据分组的索引使用分组 \1,1是分组的索引值
# ret = re.search(r'<(\w+?)>\w+</\1>',"<b>hello</b>")
# print(ret.group())
# print(ret.group(1))

# ret = re.search(r"<(\w+)>\w+</\1>","<h1>hello</h1>")
# ret.group(1)

# ret = re.finditer(r'<(\w+?)>\w+</\1>',"<b>hesakdfkhfkllo</b>")
# for i in ret:
#     print(i.group(1))
#     print(i.group())

posted @ 2018-07-13 15:19 九月江阅读(203) 评论(0) 编辑收藏举报

刷新页面返回顶部

九月江

正则表达式

公告