python爬虫

爬取河北省卫生健康委员会疫情通报标题目录,由于标题中有其他通报,所以需要筛选出所有关于疫情情况的标题,并爬取地址链接,代码如下:


from lxml import etree
import re
import requests


def get_url(url):
strhtml = requests.get(url) # Get方式获取网页数据
tree = etree.HTML(strhtml.text)
return tree


if
__name__ == '__main__': url = 'http://www.hebwst.gov.cn/index.do?cid=326&templet=list' list_url = get_url(url) tltle_ = list_url.xpath('//tr/td/a//text()') url_ = list_url.xpath('//tr/td/a/@href') l = [] url_tltles = [] #疫情标提列表 url_list = [] #疫情详情页列表 for i in tltle_: if i == '\r\n\t\t\t\t\t\t': pass else: l.append(i) for index,i in enumerate(l): if '河北省新型冠状病毒' not in i : pass else: url_list.append(url_[index]) url_tltles.append(i) for index,i in enumerate(url_list): url = 'http://www.hebwst.gov.cn/'+i

 

posted @ 2020-02-10 16:04  袁小丑  阅读(106)  评论(0编辑  收藏  举报