re模块

re模块

元字符

  • ^ 从开头匹配
  • $ 尾部匹配
  • * 前一个字符0-∞
  • + 前一个字符1-无穷大
  • ? 前一个字符0-1
  • [abc] abc中的任何一个
  • [^#] 非#
  • {n} 前一个字符n次
  • (a|b) ()a或b
  • () 分组,只要括号内的
  • . 匹配任意字符
  • \d 数字
  • \D 非数字
  • \w 字符/字母/数字/下划线
  • \W 非字母/数字/下划线
  • \s 空白
  • \S 非空白
  • .*?

函数

  • findall 寻找所有符合规则的
  • match 从开头匹配,只找一个
  • search 搜索,从整个内容中匹配,只找一个
  • compile 写一个特定的规则模板
  • sub 替换,相当于字符串的replace
  • subn 替换,会返回替换的次数
  • split 切割,相当于字符串的split
s = '孙悟空找猪八戒找媳妇高翠兰,然后吃西瓜'
print(s[8:10])    #媳妇
print(s.index('媳妇'))	#8
print(s[s.index('媳妇')+2:s.index('媳妇')+5])	#高翠兰
import re
res=re.findall('媳妇(.{3})',s)
print(res)		#媳妇高翠兰

基础的re使用

import re
s = '孙悟空找猪八戒找媳妇西高翠兰,然后吃西瓜,再吃西瓜'
res=re.findall('西瓜',s)
print(res)
['西瓜', '西瓜']
##找出所有‘’字符内容
	^叫做元字符,元字符会有特殊的意义,匹配开头的,也就是说只从头开始找
s = '孙悟空找猪八戒找媳妇西高翠兰,然后吃西瓜,再吃西瓜'
res=re.findall('^孙悟空',s)
print(res)
['孙悟空']

res=re.findall('^猪八戒',s)
print(res)
[]
#找不到

	$结尾
res=re.findall('$西瓜',s)
print(res)
['西瓜']
res=re.findall('$再吃',s)
print(res)
[]
#找不到

	| 相当于or
res=re.findall('孙悟空|猪八戒',s)
print(res)
['孙悟空', '猪八戒']

	[],找到[]内所有元素
s = 'abcdefgabckdjfkljsadalasjkdlfjklbkljklfjc'
res = re.findall("[a,b,c]",s)
print(res)
#['a', 'b', 'c', 'a', 'b', 'c', 'a', 'a', 'a', 'b', 'c']

	.任意一个字符
s = '孙悟空找猪八戒找媳妇高翠兰,然后吃西瓜,再吃西瓜'
res = re.findall('媳妇...',s)
print(res)
['媳妇高翠兰']

	.{3},大括号前面的字符匹配三次
s = '孙悟空找猪八戒找媳妇妇妇妇高翠兰,然后吃西瓜,再吃西瓜'
res = re.findall('媳妇{4},s)
print(res)
#['媳妇妇妇妇']

	*,前面字符匹配无穷个,0-正无穷
s = '孙悟空找猪八戒找媳高翠兰,然后吃西瓜,再吃西瓜'
res = re.findall('媳妇*',s)
print(res)
['媳']
    +,前面的字符,1-正无穷
s = '孙悟空找猪八戒找媳高翠兰,然后吃西瓜,再吃西瓜'
res = re.findall('媳妇+',s)
print(res)
#[]
	 ?,前面的字符0-1个
s = '孙悟空找猪八戒找媳妇妇妇高翠兰,然后吃西瓜,再吃西瓜'
res = re.findall('媳妇?',s)
print(res)
#['媳妇']
      \d,匹配数字
 s = '孙悟空找猪八戒找媳妇妇妇高翠兰,然后asdfasdf吃西234234瓜,再吃   西瓜'
res = re.findall('\d*',s)
print(res)
’‘’‘’‘’‘’‘’‘’‘’‘’‘’‘’‘’‘’‘’‘’‘’‘’234234‘’‘’‘’‘’‘’‘’‘
  s = '孙悟空找猪八戒找媳妇妇妇高翠兰,然后asdfasdf吃西234234瓜,再吃   西瓜'
res = re.findall('\d+,s)
print(res)
 ['234234'] 
                 
       \D,除了数字都匹配到了 
 s = '孙悟空找猪八戒找媳妇妇妇高翠兰,然后asdfasdf吃西234234瓜,再吃   西瓜'
res = re.findall('\D+',s)
 print(res)
['孙悟空找猪八戒找媳妇妇妇高翠兰,然后asdfasdf吃西', '瓜,再吃   西瓜']             
      
       \s
 s = '孙悟空找猪八戒找媳妇妇妇高翠兰,然后asdfasdf吃西234234瓜,再吃   西瓜'
res = re.findall('\s+',s)
print(res)
 ['    ']
                 
       \S,非空
s = '孙悟空找猪八戒找媳妇妇###@@@妇高翠兰,然后asdfa___sdf吃西234234瓜,再吃   西瓜'
res = re.findall('\S+',s)
print(res)
 ['孙悟空找猪八戒找媳妇妇###@@@妇高翠兰,然后asdfa___sdf吃西234234瓜,再吃', '西瓜']           
        \w,字母,数字,下划线         
 s = '孙悟空找猪八戒找媳妇妇妇高$$$$$@@@@翠兰,然____后asdfasdf吃西234234瓜,再吃   西瓜'
res = re.findall('\w+',s)
print(res)
['孙悟空找猪八戒找媳妇妇妇高', '翠兰', '然____后asdfasdf吃西234234瓜', '再吃', '西瓜']                 
         \W,非字母,非数字,非下划线
 s = '孙悟空找猪八戒找媳妇妇妇高$$$$$@@@@翠兰,然____后asdfasdf吃西234234瓜,再吃   西瓜'
res = re.findall('\W+',s)
print(res)
 ['$$$$$@@@@', ',', ',', '   ']                

贪婪模式

s = '孙悟空找猪八戒找媳妇妇妇高$$$$$@@@@翠兰,然____后asdfasdf吃西234234瓜,再吃   西瓜妇'
res = re.findall('猪.*妇',s)
print(res)
#['猪八戒找媳妇妇妇高$$$$$@@@@翠兰,然____后asdfasdf吃西234234瓜,再吃   西瓜妇']

非贪婪模式

s = '孙悟空找猪八戒找媳妇妇妇高$$$$$@@@@翠兰,然____后asdfasdf吃西234234瓜,再吃   西瓜妇'
res = re.findall('猪.*?妇',s)
print(res)
#['猪八戒找媳妇']

posted @ 2019-06-13 14:46  enazede  阅读(124)  评论(0编辑  收藏  举报