爬虫--数据解析

数据解析的目的是获取局部的数据

数据解析的方法有正则,xpath,bs4

正则:https://www.cnblogs.com/l1222514/p/11011009.html

正则解析:
　　import re
　　#正则获取定位可以获取括号里面的内容
　　ex='xxxxx(.*?)xxxx'
　　re.findall(ex,page_text,re.S)

bs4解析
解析原理：
　　实例化一个Beautifulsoup的对象，且将页面源码数据加载到该对象中
　　使用该对象的相关属性和方法实现标签定位和数据提取
环境的安装：
　　pip install bs4
　　pip install lxml
实例化Beautifulsoup对象
　　BeautifulSoup(page_text,'lxml'):将从互联网上请求到的页面源码数据加载到该对象中
　　BeautifulSoup(fp,'lxml')：将本地存储的一样页面源码数据加载到该对象中

bs4的方法:
　　from bs4 import BeautifulSoup
　　soup = BeautifulSoup(fp,'lxml')
方法1#soup.tagName:只可以定位到第一次出现的tagName标签
　　soup.title
　　soup.div
方法2#soup.find(‘tagName’)
　　soup.find('a') # ==soup.a
方法3#属性定位
　　soup.find('div',class_='song')
方法4#find_all
　　soup.find_all('div')[2]
方法5#select('选择器') 选择器中class用.表示
　　‘>’:表示一个层级空格：表示多个层级
　　soup.select('.song')
　　soup.select('.tang > ul > li > a') #==soup.select('.tang a')

获取文本的方法##取文本:string取的是直系的文本数据，text获取的是全部的数据
　　soup.p.string
　　soup.find('div',class_='tang').get_text() #==soup.find('div',class_='tang').text
获取属性的方法#取属性
　　soup.a['href']
　　soup.select('.tang > ul > li > a')[0]['href']

xpath解析：
　　解析效率比较高
　　通用性最强的

环境安装：pip install lxml
解析原理：
　　实例化一个etree对象且将即将被解析的页面源码数据加载到该对象中
　　使用etree对象中的xpath方法结合着xpath表达式进行标签定位和数据提取
实例化etree对象
　　etree.parse('本地文件路径')
　　etree.HTML(page_text)

xpath定位方法:
　　from lxml import etree
　　tree = etree.parse('./test.html')
方法1:#定位title标签
　　#第一个/表示根目录
　　tree.xpath('/html/head/title')
　　tree.xpath('/html//title')
　　tree.xpath('//title')
方法2:#定位class=song的div
　　tree.xpath('//div[@class="song"]')
　　tree.xpath('//div[2]') #xpath表达式中的索引是从1开始
　　tree.xpath('//div[@class="tang"]/ul/li[4]/a') #==tree.xpath('//div[@class="tang"]//li[4]/a')

方法3:#取文本（获取李清照）
　　/text() 获取直系文本 //text() 获取标签下的所有文本
　　tree.xpath('//div[@class="song"]/p[1]/text()')[0]
　　tree.xpath('//div[@class="song"]//text()')
方法4:#取属性 /@属性

　　tree.xpath('//a/@href')

#爬取三国演义,使用xpath解析

import requests
from lxml import etree

url = 'https://www.shicimingju.com/book/sanguoyanyi.html'
headers = {
    'User-Agent':'Mozilla/5.0 (Windows NT 6.1; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/70.0.3538.77 Safari/537.36'
}
#处理乱码问题
respons  = requests.get(url = url,headers=headers)
respons.encoding = 'utf-8'
res_text = respons.text

#实例化etree
tree =etree.HTML(res_text)
li_list = tree.xpath('//div[@class="book-mulu"]//li')
fp = open('./sanguo','w',encoding='utf-8')
for li in li_list:
    title = li.xpath('./a/text()')[0]
    detail_url = 'https://www.shicimingju.com/' +li.xpath('./a/@href')[0]
    #处理乱码问题
    datile_page = requests.get(url = detail_url,headers=headers)
    datile_page.encoding= 'utf-8'
    datile_page=datile_page.text

    tree = etree.HTML(datile_page)
    content = tree.xpath('//div[@class="chapter_content"]//text()')
    print(title,'下载完成')
    #持久化存储
    fp.write(title+'\n'+str(content) + '\n')

fp.close()
fp.flush()

posted @ 2022-05-08 15:55 QV 阅读(33) 评论(0) 编辑收藏举报

刷新页面返回顶部

python学习之路

爬虫--数据解析

公告