python 爬虫----- 数据解析 RE解析(正则表达式)
Regular Rxpression 正则表达式(字符串语法匹配)
常用元字符:
量词:
贪婪匹配(到最后一个匹配项停止,即全部匹配)和惰性匹配(匹配尽量少的对象,使用到回溯算法:先全部匹配再找到最小的匹配)
RE 正则表达式:
Python正则表达式前的 r 表示原生字符串(rawstring),该字符串声明了引号中的内容表示该内容的原始含义,避免了多次转义造成的反斜杠困扰。
-
re中的相关操作
- findall()
- finditer()
- search()
- match()
- 预加载(编译)一个正则表达式
-
获得想要的正则表达式获取的数据
import re # findall() 返回所有符合正则表达式的内容 列表 lst = re.findall(r"\d+", "my phone number is 10086 or 10000") print(lst) # finditer() 返回所有符合正则表达式的内容 迭代器(也是match对象) it = re.finditer(r"\d+", "my phone number is 10086 or 10000") for i in it: print(i.group())#在迭代器中用.group拿数据 # search() 返回一个符合正则表达式的内容 match s = re.search(r"\d+", "my phone number is 10086 or 10000") print(s.group()) #python中的match对象是一次匹配的结果,其包含了很多匹配的相关信息。 #match() 是从头开始匹配一个符合正则表达式的内容 s = re.match(r"\d+", "10086 or 10000") print(s.group()) #预加载(编译)一个正则表达式 obj = re.compile(r"\d+") s = obj.match("10086 or 10000") print(s.group()) s = """ <div class='jay'><span id='1'>郭麒麟</span></div> <div class='jj'><span id='1'>郭麒</span></div> <div class='ja'><span id='1'>郭麟</span></div> <div class='jy'><span id='1'>麒麟</span></div> <div class='jjjy'><span id='1'>麟</span></div> """ #获得想要的正则表达式获取的数据 # (?P<你起的分组名字>.*?(任意一个正则表达式 )) 表示将.*?匹配的东西储存在分组中,可以在.gruop(分组)中调用 obj = re.compile(r"<div class='(?P<wadada>.*?)'><span id='(?P<wakaka>.*?)'>(?P<wahaha>.*?)</span></div>", re.S)#re.s让.可以匹配换行符 result = obj.finditer(s) for it in result: print(it.group("wahaha")) print(it.group("wakaka")) print(it.group("wadada"))
hello my world
本文来自博客园,作者:slowlydance2me,转载请注明原文链接:https://www.cnblogs.com/slowlydance2me/p/16833614.html