re模块
re模块
元字符
- ^ 从开头匹配
- $ 尾部匹配
- * 前一个字符0-∞
- + 前一个字符1-无穷大
- ? 前一个字符0-1
- [abc] abc中的任何一个
- [^#] 非#
- {n} 前一个字符n次
- (a|b) ()a或b
- () 分组,只要括号内的
- . 匹配任意字符
- \d 数字
- \D 非数字
- \w 字符/字母/数字/下划线
- \W 非字母/数字/下划线
- \s 空白
- \S 非空白
- .*?
函数
- findall 寻找所有符合规则的
- match 从开头匹配,只找一个
- search 搜索,从整个内容中匹配,只找一个
- compile 写一个特定的规则模板
- sub 替换,相当于字符串的replace
- subn 替换,会返回替换的次数
- split 切割,相当于字符串的split
s = '孙悟空找猪八戒找媳妇高翠兰,然后吃西瓜'
print(s[8:10]) #媳妇
print(s.index('媳妇')) #8
print(s[s.index('媳妇')+2:s.index('媳妇')+5]) #高翠兰
import re
res=re.findall('媳妇(.{3})',s)
print(res) #媳妇高翠兰
基础的re使用
import re
s = '孙悟空找猪八戒找媳妇西高翠兰,然后吃西瓜,再吃西瓜'
res=re.findall('西瓜',s)
print(res)
['西瓜', '西瓜']
##找出所有‘’字符内容
^叫做元字符,元字符会有特殊的意义,匹配开头的,也就是说只从头开始找
s = '孙悟空找猪八戒找媳妇西高翠兰,然后吃西瓜,再吃西瓜'
res=re.findall('^孙悟空',s)
print(res)
['孙悟空']
res=re.findall('^猪八戒',s)
print(res)
[]
#找不到
$结尾
res=re.findall('$西瓜',s)
print(res)
['西瓜']
res=re.findall('$再吃',s)
print(res)
[]
#找不到
| 相当于or
res=re.findall('孙悟空|猪八戒',s)
print(res)
['孙悟空', '猪八戒']
[],找到[]内所有元素
s = 'abcdefgabckdjfkljsadalasjkdlfjklbkljklfjc'
res = re.findall("[a,b,c]",s)
print(res)
#['a', 'b', 'c', 'a', 'b', 'c', 'a', 'a', 'a', 'b', 'c']
.任意一个字符
s = '孙悟空找猪八戒找媳妇高翠兰,然后吃西瓜,再吃西瓜'
res = re.findall('媳妇...',s)
print(res)
['媳妇高翠兰']
.{3},大括号前面的字符匹配三次
s = '孙悟空找猪八戒找媳妇妇妇妇高翠兰,然后吃西瓜,再吃西瓜'
res = re.findall('媳妇{4},s)
print(res)
#['媳妇妇妇妇']
*,前面字符匹配无穷个,0-正无穷
s = '孙悟空找猪八戒找媳高翠兰,然后吃西瓜,再吃西瓜'
res = re.findall('媳妇*',s)
print(res)
['媳']
+,前面的字符,1-正无穷
s = '孙悟空找猪八戒找媳高翠兰,然后吃西瓜,再吃西瓜'
res = re.findall('媳妇+',s)
print(res)
#[]
?,前面的字符0-1个
s = '孙悟空找猪八戒找媳妇妇妇高翠兰,然后吃西瓜,再吃西瓜'
res = re.findall('媳妇?',s)
print(res)
#['媳妇']
\d,匹配数字
s = '孙悟空找猪八戒找媳妇妇妇高翠兰,然后asdfasdf吃西234234瓜,再吃 西瓜'
res = re.findall('\d*',s)
print(res)
’‘’‘’‘’‘’‘’‘’‘’‘’‘’‘’‘’‘’‘’‘’‘’‘’234234‘’‘’‘’‘’‘’‘’‘
s = '孙悟空找猪八戒找媳妇妇妇高翠兰,然后asdfasdf吃西234234瓜,再吃 西瓜'
res = re.findall('\d+,s)
print(res)
['234234']
\D,除了数字都匹配到了
s = '孙悟空找猪八戒找媳妇妇妇高翠兰,然后asdfasdf吃西234234瓜,再吃 西瓜'
res = re.findall('\D+',s)
print(res)
['孙悟空找猪八戒找媳妇妇妇高翠兰,然后asdfasdf吃西', '瓜,再吃 西瓜']
\s
s = '孙悟空找猪八戒找媳妇妇妇高翠兰,然后asdfasdf吃西234234瓜,再吃 西瓜'
res = re.findall('\s+',s)
print(res)
[' ']
\S,非空
s = '孙悟空找猪八戒找媳妇妇###@@@妇高翠兰,然后asdfa___sdf吃西234234瓜,再吃 西瓜'
res = re.findall('\S+',s)
print(res)
['孙悟空找猪八戒找媳妇妇###@@@妇高翠兰,然后asdfa___sdf吃西234234瓜,再吃', '西瓜']
\w,字母,数字,下划线
s = '孙悟空找猪八戒找媳妇妇妇高$$$$$@@@@翠兰,然____后asdfasdf吃西234234瓜,再吃 西瓜'
res = re.findall('\w+',s)
print(res)
['孙悟空找猪八戒找媳妇妇妇高', '翠兰', '然____后asdfasdf吃西234234瓜', '再吃', '西瓜']
\W,非字母,非数字,非下划线
s = '孙悟空找猪八戒找媳妇妇妇高$$$$$@@@@翠兰,然____后asdfasdf吃西234234瓜,再吃 西瓜'
res = re.findall('\W+',s)
print(res)
['$$$$$@@@@', ',', ',', ' ']
贪婪模式
s = '孙悟空找猪八戒找媳妇妇妇高$$$$$@@@@翠兰,然____后asdfasdf吃西234234瓜,再吃 西瓜妇'
res = re.findall('猪.*妇',s)
print(res)
#['猪八戒找媳妇妇妇高$$$$$@@@@翠兰,然____后asdfasdf吃西234234瓜,再吃 西瓜妇']
非贪婪模式
s = '孙悟空找猪八戒找媳妇妇妇高$$$$$@@@@翠兰,然____后asdfasdf吃西234234瓜,再吃 西瓜妇'
res = re.findall('猪.*?妇',s)
print(res)
#['猪八戒找媳妇']
程序的道路上一去不复返