python之爬虫之三种数据解析方式
一、正则解析
二、Xpath解析
测试页面数据
![](https://images.cnblogs.com/OutliningIndicators/ContractedBlock.gif)
1 <html lang="en"> 2 <head> 3 <meta charset="UTF-8" /> 4 <title>测试bs4</title> 5 </head> 6 <body> 7 <div> 8 <p>百里守约</p> 9 </div> 10 <div class="song"> 11 <p>李清照</p> 12 <p>王安石</p> 13 <p>苏轼</p> 14 <p>柳宗元</p> 15 <a href="http://www.song.com/" title="赵匡胤" target="_self"> 16 <span>this is span</span> 17 宋朝是最强大的王朝,不是军队的强大,而是经济很强大,国民都很有钱</a> 18 <a href="" class="du">总为浮云能蔽日,长安不见使人愁</a> 19 <img src="http://www.baidu.com/meinv.jpg" alt="" /> 20 </div> 21 <div class="tang"> 22 <ul> 23 <li><a href="http://www.baidu.com" title="qing">清明时节雨纷纷,路上行人欲断魂,借问酒家何处有,牧童遥指杏花村</a></li> 24 <li><a href="http://www.163.com" title="qin">秦时明月汉时关,万里长征人未还,但使龙城飞将在,不教胡马度阴山</a></li> 25 <li><a href="http://www.126.com" alt="qi">岐王宅里寻常见,崔九堂前几度闻,正是江南好风景,落花时节又逢君</a></li> 26 <li><a href="http://www.sina.com" class="du">杜甫</a></li> 27 <li><a href="http://www.dudu.com" class="du">杜牧</a></li> 28 <li><b>杜小月</b></li> 29 <li><i>度蜜月</i></li> 30 <li><a href="http://www.haha.com" id="feng">凤凰台上凤凰游,凤去台空江自流,吴宫花草埋幽径,晋代衣冠成古丘</a></li> 31 </ul> 32 </div> 33 </body> 34 </html>
常用xpath表达式应用
# Xpath封装在etree包中,etree封装在lxml模块中
from lxml import etree
# 实例化一个本地的etree对象,并且页面源码数据加载到该对象中
tree = etree.parse('./index.html') # 返回对象的类型是ElementTree类型
解析操做
属性定位
找到class属性值为song的div标签
tree.xpath('//div[@class="song"]')
层级&索引定位:
找到class属性值为tang的div的直系子标签ul下的第二个子标签li下的直系子标签a
ree.xpath('//div[@class="tang"]/ul/li[2]/a')
逻辑运算:
找到href属性值为空且class属性值为du的a标签
tree.xpath('//a[@href="" and @class="du"]')
取文本:
/表示获取某个标签下的文本内容
//表示获取某个标签下的文本内容和所有子标签下的文本内容
tree.xpath('//div[@class="song"]/p[1]/text()')[0]
tree.xpath('//div[@class="tang"]//text()')
tree.xpath('//div[@class="tang"]/ul/li[2]//text()')
注意:
//text() 后面一定不要跟 [ ],应为列表元素不止一个
取属性:
tree.xpath('//div[@class="tang"]/ul/li[2]/a/@href')[0]
![](https://images.cnblogs.com/OutliningIndicators/ContractedBlock.gif)
1 # Xpath封装在etree包中,etree封装在lxml模块中 2 from lxml import etree 3 #实例化一个本地的etree对象,并且页面源码数据加载到该对象中 4 tree = etree.parse('./index.html') # 返回对象的类型是ElementTree类型 5 6 # 解析操做 7 #属性定位 8 #找到class属性值为song的div标签 9 # tree.xpath('//div[@class="song"]') 10 11 # 层级&索引定位: 12 #找到class属性值为tang的div的直系子标签ul下的第二个子标签li下的直系子标签a 13 # tree.xpath('//div[@class="tang"]/ul/li[2]/a') 14 15 #逻辑运算: 16 #找到href属性值为空且class属性值为du的a标签 17 # tree.xpath('//a[@href="" and @class="du"]') 18 19 # 取文本: 20 # /表示获取某个标签下的文本内容 21 # //表示获取某个标签下的文本内容和所有子标签下的文本内容 22 # tree.xpath('//div[@class="song"]/p[1]/text()')[0] 23 # tree.xpath('//div[@class="tang"]//text()') 24 # tree.xpath('//div[@class="tang"]/ul/li[2]//text()') 25 # 取属性: 26 tree.xpath('//div[@class="tang"]/ul/li[2]/a/@href')[0]
使用xpath表达式进行数据解析
1.下载:pip install lxml
2.导包:from lxml import etree
3.将html文档或者xml文档转换成一个etree对象,然后调用对象中的方法查找指定的节点
3.1 本地文件:tree = etree.parse(文件名)
tree.xpath("xpath表达式")
3.2 网络数据:tree = etree.HTML(网页内容字符串)
tree.xpath("xpath表达式")
项目需求:获取58同城北京昌平区的二手房的地址,价格,描述
https://bj.58.com/changping/ershoufang/?PGTID=0d30000c-0047-e853-04ee-93a15ab7eede&ClickID=1
![](https://images.cnblogs.com/OutliningIndicators/ContractedBlock.gif)
1 import requests 2 from lxml import etree 3 # 1 获取页面源码数据 4 url = 'https://bj.58.com/changping/ershoufang/?utm_source=sem-baidu-pc&spm=105916147073.26840108910' 5 headers = { 6 'User-Agent':'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/68.0.3440.106 Safari/537.36' 7 } 8 page_text=requests.get(url=url,headers=headers).text 9 # 2.实例化一个etree对象,并且页面源码数据加载到该对象中 10 tree = etree.HTML(page_text) 11 12 li_list = tree.xpath('//ul[@class="house-list-wrap"]/li') 13 # 设置一个数据列表,可以将下方爬到的数据添加到列表中 14 all_data_list = [] 15 for li in li_list: 16 # 拿到二手房的名称 17 title = li.xpath('.//div[@class="list-info"]/h2/a/text()')[0] 18 # 拿到二手房的详情页url 19 detail_url = li.xpath('.//div[@class="list-info"]/h2/a/@href')[0] 20 if not 'https:' in detail_url: 21 detail_url = 'https:'+detail_url 22 # 拿到价格信息 23 price = li.xpath('.//div[@class="price"]/p//text()') 24 # 将价格信息转变为字符串的格式 25 price = ''.join(price) 26 27 # 3 对详情页进行页面请求,拿到二手房的详情信息 28 # 3.1 从新实例化一个详情页etree对象,并且页面源码数据加载到该对象中 29 detail_page_text = requests.get(url=detail_url,headers=headers).text 30 tree = etree.HTML(detail_page_text) 31 # 3.2 拿到详情页中二手房的详情描述 32 desc = tree.xpath('.//div[@class="general-item-wrap"]//text()') 33 desc = ''.join(desc).strip('\n \b \t') 34 35 36 # 4 构建一个爬到的数据字典 37 dic = { 38 'title':title, 39 'price':price, 40 'desc':desc 41 } 42 all_data_list.append(dic) 43 44 print( all_data_list)
加密数据的爬取
项目需求:爬取煎蛋网中图片数据 http://jandan.net/ooxx
#查看页面源码:发现所有图片的src值都是一样的。 #简单观察会发现每张图片加载都是通过jandan_load_img(this)这个js函数实现的。 #在该函数后面还有一个class值为img-hash的标签,里面存储的是一组hash值,该值就是加密后的img地址 #加密就是通过js函数实现的,所以分析js函数,获知加密方式,然后进行解密。 #通过抓包工具抓取起始url的数据包,在数据包中全局搜索js函数名(jandan_load_img),然后分析该函数实现加密的方式。 #在该js函数中发现有一个方法调用,该方法就是加密方式,对该方法进行搜索 #搜索到的方法中会发现base64和md5等字样,md5是不可逆的所以优先考虑使用base64解密
![](https://images.cnblogs.com/OutliningIndicators/ContractedBlock.gif)
1 from urllib import request 2 """ 3 第一种爬图片时,只能拿到当页的前三张图片,可能是中间插入的有广告,li_list = tree.xpath('//ol[@class="commentlist"]/li') 4 不一定全部含有src_code = li.xpath('.//span[@class="img-hash"]/text()')[0],因此取到的时空,然后报list index out of range这样的错误, 5 因此应该找一个所有图片共有的标签,即('.//span[@class="img-hash"]/text()')[0], 其实这就是一个xpath通常的错误,就是xpath不一定正确 6 """ 7 # 第一种爬图片时,只能拿到当页的前三张图片,可能是中间插入的有广告, 8 import requests 9 import base64 10 from lxml import etree 11 import os 12 from urllib import request 13 headers = { 14 "User-Agent":'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/68.0.3440.106 Safari/537.36' 15 } 16 # 创建存放图片的文件夹 17 # 如果不存在 18 if not os.path.exists('mmpicture'): 19 os.mkdir('mmpicture') 20 url = 'http://jandan.net/ooxx/page-48#comments' 21 page_text = requests.get(url=url,headers=headers).text 22 23 # 解析src的密文数据 24 tree = etree.HTML(page_text) 25 # 拿到li标签里面的内容,生成列表 26 li_list = tree.xpath('//ol[@class="commentlist"]/li') 27 for li in li_list: 28 # 取到加密后的图片url 29 src_code = li.xpath('.//span[@class="img-hash"]/text()')[0] 30 # 对加密后的url进行解密,并拼接成完整的url 31 src ='https:'+ base64.b64decode(src_code).decode() 32 33 img_path ='mmpicture'+ src.split('/')[-1] 34 request.urlretrieve(url=src,filename=img_path) 35 print(img_path+'下载完毕')
![](https://images.cnblogs.com/OutliningIndicators/ContractedBlock.gif)
1 # 第二种,直接拿到加密的图片url密文src_code_list = tree.xpath('//span[@class="img-hash"]/text()') 2 3 from urllib import request 4 import requests 5 import base64 6 from lxml import etree 7 import os 8 headers = { 9 'User-Agent':'Mozilla/5.0 (Windows NT 6.1; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/71.0.3578.98 Safari/537.36' 10 } 11 if not os.path.exists('mmpicture3'): 12 os.mkdir('mmpicture3') 13 14 url = 'http://jandan.net/ooxx/page-48#comments' 15 page_text = requests.get(url=url,headers=headers).text 16 17 #解析scr的密文数据 18 tree = etree.HTML(page_text) 19 src_code_list = tree.xpath('//span[@class="img-hash"]/text()') 20 for src_code in src_code_list: 21 src = 'https:'+base64.b64decode(src_code).decode() 22 img_path = 'mmpicture3/'+src.split('/')[-1] 23 request.urlretrieve(url=src,filename=img_path) 24 print(img_path+'下载完毕!!!')
文件爬取
项目需求:爬取站长素材中的免费简历模板 http://sc.chinaz.com/jianli/free.html
![](https://images.cnblogs.com/OutliningIndicators/ContractedBlock.gif)
1 import requests 2 from lxml import etree 3 import random 4 import os 5 6 # 创建一个存放简历的文件夹 7 if not os.path.exists("jianli"): 8 os.mkdir("jianli") 9 10 # 获取源码数据 11 headers={ 12 'User-Agent':'Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/67.0.3396.99 Safari/537.36' 13 } 14 url = 'http://sc.chinaz.com/jianli/free.html' 15 # response = requests.get(url=url,headers=headers) 16 # response.encoding = "utf-8" 17 # page_text = response.text 18 page_text = requests.get(url=url,headers=headers).content.decode() 19 # print(page_text) 20 21 #实例etree对象 22 tree = etree.HTML(page_text) 23 div_list = tree.xpath('//div[@id="container"]/div') 24 for div in div_list: 25 detail_url = div.xpath('./a/@href')[0] 26 name = div.xpath('./a/img/@alt')[0] 27 # print(detail_url,name) 28 detail_page_name = requests.get(url=detail_url,headers=headers).text 29 tree = etree.HTML(detail_page_name) 30 download_url_list = tree.xpath('//div[@class="clearfix mt20 downlist"]/ul/li/a/@href') 31 # print(download_url_list) # 下载简历模板的所有url 32 download_url = random.choice(download_url_list) 33 34 jianli_data = requests.get(url=download_url,headers=headers).content # 返回的是简历的二进制文件 35 file_path = 'jianli/'+name+'.rar' 36 with open(file_path,'wb') as fb: 37 fb.write(jianli_data) 38 print(file_path + "下载成功!!")
![](https://images.cnblogs.com/OutliningIndicators/ContractedBlock.gif)
1 # 处理多页信息 原理:给一个起始页和末尾页,组成一个范围,循环下载每页的信息,url改成动态 2 import requests 3 from lxml import etree 4 import random 5 import os 6 7 headers = { 8 'User-Agent':'Mozilla/5.0 (Windows NT 6.1; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/71.0.3578.98 Safari/537.36' 9 } 10 11 start_page = 1 12 end_page = 5 13 14 15 # 创建一个文件夹存放简历 16 if not os.path.exists('jianli'): 17 os.mkdir('jianli') 18 19 url = 'http://sc.chinaz.com/jianli/free_%d.html' 20 21 for page in range(start_page,end_page+1): 22 if page == 1: 23 new_url = 'http://sc.chinaz.com/jianli/free.html' 24 # 改成新的url,防止替换之前的url 25 26 else: 27 new_url = format(url%page) 28 29 # 实例化一个etree对象,并将页面源码数据加载到该对象中 30 response = requests.get(url=new_url,headers=headers) 31 # 下载的汉字可能会乱码,采用response进行解码 32 response.encoding = 'utf-8' 33 page_text = response.text 34 35 tree = etree.HTML(page_text) 36 # 取到所有简历组成的列表 37 div_list = tree.xpath('//div[@id="container"]/div') 38 # 循环遍历出单个的简历 39 for div in div_list: 40 # 拿到单个简历的详情页信息 41 detail_url = div.xpath('./a/@href')[0] 42 # 拿到每个简历的名称 43 name = div.xpath('./a/img/@alt')[0] 44 45 46 # 对详情页的信息进行请求,拿到单个简历详情页的信息 47 # 重新实例化一个etree对象 48 detail_page_text = requests.get(url=detail_url,headers=headers).text 49 tree = etree.HTML(detail_page_text) 50 51 # 拿到简历的所有下载地址 52 download_url_list = tree.xpath('//div[@class="clearfix mt20 downlist"]/ul/li/a/@href') 53 # download_url_list = tree.xpath('//div[@class="clearfix mt20 downlist"]/ul/li/a/@href') 54 # 下载的时候随机选择一个下载地址,要使用random函数 55 download_url = random.choice(download_url_list) 56 57 # 拿到随机下载网址后,进行简历的下载 58 jianli_data = requests.get(url=download_url,headers=headers).content 59 60 # 编写简历存放文件夹名称 61 file_path = 'jianli/'+name+'.rar' 62 with open(file_path,'wb')as fp: 63 fp.write(jianli_data) 64 print(file_path+"下载成功")
视频爬取
项目需求:爬取梨视频体育界面的视频 https://www.pearvideo.com/category_9
![](https://images.cnblogs.com/OutliningIndicators/ContractedBlock.gif)
1 import requests 2 from lxml import etree 3 import re 4 import os 5 6 if not os.path.exists("vidio"): 7 os.mkdir("vidio") 8 9 # 获取源码数据 10 headers={ 11 'User-Agent':'Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/67.0.3396.99 Safari/537.36' 12 } 13 url = 'https://www.pearvideo.com/category_9' 14 page_text = requests.get(url=url,headers=headers).text 15 # print(page_text) 16 17 # 实例化一个etree对象 18 tree = etree.HTML(page_text) 19 a_href_list = tree.xpath('//div[@class="vervideo-bd"]/a/@href') 20 for a_href in a_href_list: 21 # 拼接视频详情的页面的url地址 22 new_url = url.split("/")[0]+ "//" + url.split("/")[2] + "/" + a_href 23 #拿到视频详情的页面 24 detail_page_text = requests.get(url=new_url,headers=headers).text 25 26 # 拿到视频视频链接的js文件 27 tree = etree.HTML(detail_page_text) 28 video_path = tree.xpath('//*[@id="detailsbd"]/div[1]/script[1]/text()')[0] 29 # print(len(req)) 30 # 正则匹配 31 ex = 'srcUrl="(.*?)",vdoUrl' 32 33 vidio_true_path= re.findall(ex,video_path,re.S)[0] # 获取视频的url地址 34 # 获取当前视频的名称 35 vidio_name = tree.xpath('//div[@id="poster"]/img/@alt')[0] 36 37 # 拼接一个视频存放路径 38 file_path = "vidio/" + vidio_name + ".mp4" 39 # 获取视频的内容 40 vidio_data = requests.get(url=vidio_true_path,headers=headers).content 41 with open(file_path,"wb") as fp: 42 fp.write(vidio_data) 43 print("file_path" + "下载成功") 44 print("下载完成"
一个报错的处理方式【重点】
报错现象(问题):
在进行大量的请求发送的时,经常会报出这样的一错误:
HTTPConnectPool(host:XX) Max retries exceeded with url.
原因:
1.每次数据传输前客户端要和服务器建立TCP连接,为节省传输消耗,默认为keep-alive,
即连接一次,传输多次。然而如果连接迟迟不断开的话,若连接池满后则无法产生连接对象,导致请求无法发送
2.ip被封
3.请求频率太频繁
解决: 如果下列解决方法未生效,则可以尝试再次执行程序
1.设置请求头中的Connection的值为close,表示每次请求成功后断开连接
2.更换请求ip
3.每次请求之前使用sleep睡一下,进行等待间隔
xpath表达式的另一种表达方式
| 在xpath函数中表示或的意思
示例: 解析出所有城市的名称 https://www.aqistudy.cn/historydata/
![](https://images.cnblogs.com/OutliningIndicators/ContractedBlock.gif)
1 import requests 2 from lxml import etree 3 headers = { 4 'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/67.0.3396.99 Safari/537.36' 5 } 6 url = 'https://www.aqistudy.cn/historydata/' 7 page_text = requests.get(url=url,headers=headers).text 8 9 tree = etree.HTML(page_text) 10 li_list = tree.xpath('//div[@class="bottom"]/ul/li | //div[@class="bottom"]/div/li') 11 print(li_list)