16、正则表达式

正则表达式

目标

掌握正则表达式的规则

案例

一个小爬虫

简介

正则表达式（或re）是一种小型的、高度专业化的编程语言，（在python中）它内嵌在python中，并通过re模块实现
- 可以为想要匹配的相应字符串集指定规则
- 该字符集可能包含英文语句、e-mail地址、命令或任何你想搞定的东西
- 可以问诸如“这个字符串匹配该模式吗”
- “在这个字符串中是否有部分匹配该模式呢？”
- 你也可以使用re以各种试来修改或分割字符串
正则表达式模式被编译成一系列的字节码，然后由C编写的匹配引擎执行
正则表达式语言相对小型和受限（功能有限）
- 并非所有字符串处理都能用正则表达式完成

字符匹配

普通字符
- 大多数字母和数字一般都会和自身匹配
- 如正则表达式test会和字符串"test"完全匹配
元字符
```
  .   ^   $   *   +   ?   {}  []  \   |   ()
```
- []
  - 常用来指定一个字符集：[abc] [a-z]
  - 元字符在字符集中不起作用：[akm$]
  - 补集匹配不在区间范围内的字符：[^5]
```
  import re

  regExp = r't[0-9]p'
  print re.findall(regExp, 't1p t2p')
```
- ^
  - 匹配行首。除非设置MULTILINE标志，它只是匹配字符串的开始。在MULTILINE模式里，它也可以匹配字符串中的每个换行。
- $
  - 匹配行尾，行尾被定义为要么是字符串尾，要么是一个换行字符后面的任何位置。
- \
  - 反斜杠后面可以加不同的字符以表示不同特殊意义
  - 也可以用于取消所有的元字符：\[或\\
```
  \d  匹配任何十进制数，它相当于[0-9]
  \D  匹配任何非数字字符，它相当于[^0-9]
  \s  匹配任何空白字符，它相当于[\t\n\r\f\v]
  \S  匹配任何非空白字符，它相当于[^\t\n\r\f\v]
  \w  匹配任何字母数字字符，它相当于[a-zA-Z0-9]
  \W  匹配任何非字母数字字符，它相当于[^a-zA-Z0-9]
```
- 重复
  - 正则表达式第一功能是能够匹配不定长的字符集，另一个功能就是可以指定正则表达式的一部分的重复次数。
- *
  - 指定前一个字符可能被匹配零次或更多次，而不是只有一次。匹配引擎会试着重复尽可能多的次数（不超过整数界定范围，20亿）
- +
  - 表示匹配一次或更多次
  - 注意和+之间的不同：匹配零或更多次，所以可以根本不出现，而+则要求至少出现一次
- ?
  - 匹配一次或零次，你可以认为它用于标识某事物是可选的
- {m,n}
  - 其中m和n是十进制整数。该限定符的意思是至少有m个重复，至多到n个重复
  - 忽略m会认为下边界是0，而忽略n的结果将是上边界为无穷大（实现上是20亿）
  - {0,}等同于*，{1,}等同于+，而{0,1}则与?相同。如果可以的话，最好使用*，+或?

使用正则表达式

re模块提供了一个正则表达式引擎的接口，可以让你将REstring编译成对象并用它们来进行匹配

编译正则表达式

  >>> import re
  >>> p = re.compile('ab*')
  >>> print p
  <_sre.SRE_Pattern object at 0x00000000004D1CA8>

re.compile()也可以接受可选择的标志参数，常用来实现不同的特殊功能和语法变更
```
  p = re.compile('ab*', re.IGNORECASE)
```

反斜杠的麻烦

字符串前加"r"反斜杠就不会被任何特殊方式处理

字符	阶段
\section	要匹配的字符串
\section	为re.compile取消反斜杠的特殊意义
"\\section"	为"\section"的字符串实值（string literals）取消反斜杠的特殊意义

执行匹配

'RegexObject'实例有一些方法和属性，完整的列表可查阅Python Library Reference

方法/属性	作用
match()	决定RE是否在字符串刚开始的位置匹配
search()	扫描字符串，找到这个RE匹配的位置
findall()	找到RE匹配的所有子串，并把它们作为一个列表返回
finditer()	找到RE匹配的所有子串，并把它们作为一个迭代器返回

    如果没有匹配到的话，match()和search()将返回None。
    如果成功的话，就会返回一个'MatchObject'实例。

MatchObject实例方法

方法/属性	作用
group()	返回被RE匹配的字符串
start()	返回匹配开始的位置
end()	返回匹配结束的位置
span()	返回一个元组包含匹配（开始，结束）的位置

实际程序中，最常见的作法是将'MatchObject'保存在一个变量里，然后检查它是否为None

  p = re.compile('ab*', re.I)
  m = p.match('aaaabcccccabcc')

  if m:
      print 'Match found : ', m.group()
  else:
      print 'No match'

模块级函数

re模块也提供了顶级函数调用如match()、search()、sub()、subn()、split()、findall()等
查看模块的所有属性和方法: dir(re)

编译标志-flags

标志	含义
DOTALL, S	使.匹配包括换行在内的所有字符
IGNORECASE, I	使匹配对大小写不敏感
LOCALE, L	做本地化识别（local-aware）匹配.法语等
MULTILINE, M	多行匹配，影响^和$
VERBOSE, X	能够使用REs的verbose状态，使之被组织得更清晰易懂

charref = re.compile(r"""
(
[0-9]+[^0-9]    #Decimal form
| 0[0-7]+[^0-7] #Octal form
| x[0-9a-fA-F]+[^0-9a-fA-F] #Hexadecimal form
)
""", re.VERBOSE)

分组()

email = r"\w+@\w+(\.com|\.cn)"

一个小爬虫

下载贴吧或空间中所有图片

  import re
  import urllib

  def getHtml(url):
      page = urllib.urlopen(url)
      html = page.read()
      return html

  def getImg(html):
      reg = r'src="(.*?\.jpg)" width'
      imgre = re.compile(reg)
      imglist = re.findall(imgre, html)
      x = 0
      for imgurl in imglist:
          urllib.urlretrieve(imgurl, '%s.jpg' % x)
          x++

  getImg(getHtml(url))

posted @ 2018-01-01 21:24 水之原阅读(216) 评论(0) 收藏举报

刷新页面返回顶部

水之原

建立自我，追求无我

16、正则表达式

正则表达式

目标

案例

简介

字符匹配

使用正则表达式

反斜杠的麻烦

执行匹配

模块级函数

编译标志-flags

分组()

一个小爬虫

公告