14.正则表达式、re模块、元字符
正则表达式
一、正则表达式所面向的问题
1、判断一个字符串是否匹配给定的格式
判断用户注册帐号是否满足格式
2、从一个字符串中按指定格式提取信息
抓取页面中的链接
二、判断用户提交的邮箱的格式是否正确
三、抓取页面中特定部分数据
er模块
1、findall方法:
在字符串中找到正则表达式所匹配的所有子串,并返回一个列表 ,如果没有找到匹配的,则返回空列表
2、match方法
re.match 尝试从字符串的起始位置匹配一个模式,匹配成功 返回的是一个匹配 对象(这个对象包含了我们匹配的信息),如果不是起始位置匹配成功的话, match()返回的是空
3、search方法
re.search 扫描整个字符串,匹配成功 返回的是一个匹配对象(这个对象包含了我们匹配的信息)
注意:search也只能匹配到一个,找到符合规则的就返回,不会一直往后找
元字符
本身具有特殊含义的字符
1.单字符匹配 2.代表数量的元字符
3.表示边界的元字符 4.分组匹配
5.贪婪与非贪婪
正则默认都是用贪婪模式去匹配数据的,就是尽可能多的匹配符合要求的数据,在非贪 婪模式下,始终找最短匹配