Python 正则表达式

<什么是正则表达>
    正则表达式(Regular Expression),又称规则表达式,在代码中常简写为regex、regexp或RE,是计算机科学的一个概念。正则表通常被用来检索、替换那些符合某个模式(规则)的文本
    正则表达式是对字符串(包括普通字符(例如,a 到 z 之间的字母)和特殊字符(称为“元字符”))操作的一种逻辑公式,就是用事先定义好的一些特定字符、及这些特定字符的组合,组成一个“规则字符串”,这个“规则字符串”用来表达对字符串的一种过滤逻辑。正则表达式是一种文本模式,模式描述在搜索文本时要匹配的一个或多个字符串。
 
➤举例
    一个网页的HTML源码,其中有一段:
<html><body><h1>hello world<h1></body></html>
 
    如果想要把这个hello world提取出来,但如果只会python 的字符串处理,那么第一反应可能是:
s = <html><body><h1>hello world<h1></body></html>
start_index = s.find('<h1>')
 
    然后从这个位置向下查找到下一个<h1>出现这样做未尝不可,但是很麻烦不是吗。需要考虑多个标签,一不留神就多匹配到东西了,而如果想要非常准确的匹配到,又得多加循环判断,效率太低。在这个时候,正则表达式,可以很好的解决上述问题。
 
➤正则表达式的处理方式
import re

key = r"<html><body><h1>hello world<h1></body></html>"#这段是你要匹配的文本
p1 = r"(?<=<h1>).+?(?=<h1>)"#这是我们写的正则表达式规则,你现在可以不理解啥意思
pattern1 = re.compile(p1)#我们在编译这段正则表达式
matcher1 = re.search(pattern1,key)#在源文本中搜索符合正则表达式的部分
print matcher1.group(0)#打印出来
 
python 中的正则表达式,回在匹配的字符串前面加上"r",用来说明匹配的字符串中的特殊字符不用转义
 
<正则表达式规则>

➤举例
    假设想把一个字符串中的所有"python"给匹配:

import re

key = r"javapythonhtmlvhdl"#这是源文本
p1 = r"python"#这是我们写的正则表达式
pattern1 = re.compile(p1)#同样是编译
matcher1 = re.search(pattern1,key)#同样是查询
print matcher1.group(0)
 

 

re.compile的作用

    re模块中包含一个重要函数是"compile(pattern [, flags]) ",该函数根据包含的正则表达式的字符串创建模式对象。可以实现更有效率的匹配。在直接使用字符串表示的正则表达式进行search,match和findall操作时,python会将字符串转换为正则表达式对象。而使用compile完成一次转换之后,在每次使用模式的时候就不用重复转换。当然,使用re.compile()函数进行转换后,re.search(pattern, string)的调用方式就转换为 pattern.search(string)的调用方式。其中,后一种调用方式中,pattern是用compile创建的模式对象。如下:

>>> import re
>>> some_text = 'a,b,,,,c d'
>>> reObj = re.compile('[, ]+')
>>> reObj.split(some_text)
['a', 'b', 'c', 'd']
 

    不使用"re.compile",在进行search,match等操作前不适用compile函数,会导致重复使用模式时,需要对模式进行重复的转换。降低匹配速度。而此种方法的调用方式,更为直观。如下:

>>> import re
>>> some_text = 'a,b,,,,c d'
>>> re.split('[, ]+',some_text)
['a', 'b', 'c', 'd']
 

➤规则

    无论是python还是正则表达式都是区分大小写的,所以当你在上面那个例子上把"python"换成了"Python",那就匹配不到你心爱的python了。

重新回到第一个例子中那个<h1>hello world<h1>匹配。假如这样写:

import re

key = r"<h1>hello world<h1>"#源文本
p1 = r"<h1>.+<h1>"#我们写的正则表达式,下面会将为什么
pattern1 = re.compile(p1)
print pattern1.findall(key)#发没发现,我怎么写成findall了?咋变了呢?
 

    知道那两个<h1>就是普普通通的字符,"."字符在正则表达式代表着可以代表任何一个字符(包括它本身)
findall返回的是所有符合要求的元素列表,包括仅有一个元素时,它还是给你返回的列表。

➣特殊字符

    那如果就只是想匹配"."这时候在正则表达式中有一个字符"\",其实如果你编程经验较多的话,你就会发现这是好多地方的“转义符”。在正则表达式里,这个符号通常用来把特殊的符号转成普通的,把普通的转成特殊的23333。    举例,想要匹配邮箱"chuxiuhong@hit.edu.cn",可以把正则表达式写成下面这个样子:

import re

key = r"afiouwehrfuichuxiuhong@hit.edu.cnaskdjhfiosueh"
p1 = r"chuxiuhong@hit\.edu\.cn"
pattern1 = re.compile(p1)
print pattern1.findall(key)
 

    在"."的前面加上了转义符\,但是并不是代表匹配“\.”的意思,而是只匹配“.”的意思。

➣正则表达式重的"+"
     在上述实例重第一次用"."时,后面还跟了一个"+",其实不难想,"."字符在正则表达式代表着可以代表任何一个字符(包括它本身)”,但是"hello world"可不是一个字符。"+"的作用是将前面一个字符一个子表达式重复一遍或者多遍比方说表达式“ab+”那么它能匹配到“abbbbb”,但是不能匹配到"a",它要求你必须得有个b,多了不限,少了不行。

    如果想要那种“有没有都行,有多少都行的表达方式”,可以使用"*"跟在其他符号后面表达可以匹配到它0次或多次,比方说我们在网页内遇到了链接,可能既有http://开头的,又有https://开头的,可以做如下处理:

import re

key = r"http://www.nsfbuhwe.com and https://www.auhfisna.com"#胡编乱造的网址,别在意
p1 = r"https*://"#看那个星号!
pattern1 = re.compile(p1)
print pattern1.findall(key)
 

    输出

['http://', 'https://']
 

➣正则表达式中的"[]"

    比方说有这么一个字符串"cat hat mat qat",会发现前面三个是实际的单词,最后那个是胡编乱造的。如果你本来就知道"at"前面是c、h、m其中之一时这才构成单词,你想把这样的匹配出来。之上的技巧只能通过写3个匹配方式将其匹配出,但是正则表达式提供了一种更加方便的方式:多字符匹方式,[]代表匹配里面的字符中的任意一个。        举例,比如发现有的程序员比较过分,在<html></html>这对标签上,大小写混用,对于这种情况,目前只有写16*16种正则表达式挨个匹配。但是可以使用[]

import re

key = r"lalala<hTml>hello</Html>heiheihei"
p1 = r"<[Hh][Tt][Mm][Ll]>.+?</[Hh][Tt][Mm][Ll]>"
pattern1 = re.compile(p1)
print pattern1.findall(key)
 

    输出

['<hTml>hello</Html>']
 

    既然有了范围性的匹配,自然有范围性的排除。[^]代表除了内部包含的字符以外都能匹配,还是cat,hat,mat,qat这个例子,想匹配除了qat以外的,那么就应该这么写:

import re

key = r"mat cat hat pat"
p1 = r"[^p]at"#这代表除了p以外都匹配
pattern1 = re.compile(p1)
print pattern1.findall(key)
 

    为了方便我们写简洁的正则表达式,它本身还提供下面这样的写法:

正则表达式代表的匹配字符
[0-9] 0123456789任意之一
[a-z] 小写字母任意之一
[A-Z] 大写字母任意之一
\d 等同于[0-9]
\D 等同于[^0-9]匹配非数字
\w 等同于[a-z0-9A-Z_]匹配大小写字母、数字和下划线
\W 等同于[^a-z0-9A-Z_]等同于上一条取非

➤总结

    介绍到这里,已经掌握了大致的正则表达式的构造方式,但是常常会在实战中遇到一些匹配的不准确的问题。比方说:

import re

key = r"chuxiuhong@hit.edu.cn"
p1 = r"@.+\."#我想匹配到@后面一直到“.”之间的,在这里是hit
pattern1 = re.compile(p1)
print pattern1.findall(key)
 

    输出结果

['@hit.edu.']
 

    理想的结果是@hit.,咋还给加量了呢?这是因为正则表达式默认是“贪婪”的,我们之前讲过,“+”代表是字符重复一次或多次。但是我们没有细说这个多次到底是多少次。所以它会尽可能“贪婪”地多给我们匹配字符,在这个例子里也就是匹配到最后一个“.”。解决这种问题的方法是:只要在“+”后面加一个“?”就好了。

import re

key = r"chuxiuhong@hit.edu.cn"
p1 = r"@.+?\."#我想匹配到@后面一直到“.”之间的,在这里是hit
pattern1 = re.compile(p1)
print pattern1.findall(key)
 

    输出结果

['@hit.']
 

    加了一个“?”就将贪婪的“+”改成了懒惰的“+”,这对于[abc]+,\w*之类的同样适用。

在你使用"+","*"的时候,一定先想好到底是用贪婪型还是懒惰型,尤其是当用到范围较大的项目上时,因为很有可能它就多匹配字符回来给你。

    为了能够准确的控制重复次数,正则表达式还提供:{a,b}(代表a<=匹配次数<=b)

    举例,我们有sas,saas,saaas,想要sas和saas,怎么处理:

import re

key = r"saas and sas and saaas"
p1 = r"sa{1,2}s" #{1,2}表示匹配一个a,或则两个a
pattern1 = re.compile(p1)
print pattern1.findall(key)
输出

['saas', 'sas']
 

    如果省略掉{1,2}中的2,那么就代表至少匹配一次,那么就等价于“?”,如果你省略掉{1,2}中的1,那么就代表至多匹配2次

下面列举一些正则表达式里的元字符及其作用

元字符说明
. 代表任意字符
| 逻辑或操作符
[ ] 匹配内部的任一字符或子表达式
[^] 对字符集和取非
- 定义一个区间
\ 对下一字符取非(通常是普通变特殊,特殊变普通)
* 匹配前面的字符或者子表达式0次或多次
*? 惰性匹配上一个
+ 匹配前一个字符或子表达式一次或多次
+? 惰性匹配上一个
? 匹配前一个字符或子表达式0次或1次重复
{n} 匹配前一个字符或子表达式
{m,n} 匹配前一个字符或子表达式至少m次至多n次
{n,} 匹配前一个字符或者子表达式至少n次
{n,}? 前一个的惰性匹配
^ 匹配字符串的开头
\A 匹配字符串开头
$ 匹配字符串结束
[\b] 退格字符
\c 匹配一个控制字符
\d 匹配任意数字
\D 匹配数字以外的字符
\t 匹配制表符
\w 匹配任意数字字母下划线
\W 不匹配数字字母下划线

<wiz_tmp_tag id="wiz-table-range-border" contenteditable="false" style="display: none;">





   

posted @ 2017-10-04 17:43  流浪的Coder  阅读(757)  评论(0编辑  收藏  举报