python爬虫

爬取河北省卫生健康委员会疫情通报标题目录，由于标题中有其他通报，所以需要筛选出所有关于疫情情况的标题，并爬取地址链接，代码如下：

from lxml import etree
import re
import requests


def get_url(url):
    strhtml = requests.get(url)  # Get方式获取网页数据
    tree = etree.HTML(strhtml.text)
    return tree


if __name__ == '__main__':
    url = 'http://www.hebwst.gov.cn/index.do?cid=326&templet=list'
    list_url = get_url(url)
    tltle_ = list_url.xpath('//tr/td/a//text()')
    url_ = list_url.xpath('//tr/td/a/@href')
    l = []
    url_tltles = [] #疫情标提列表
    url_list = [] #疫情详情页列表
    for i in tltle_:
        if i == '\r\n\t\t\t\t\t\t':
            pass
        else:
            l.append(i)

    for index,i in enumerate(l):
        if '河北省新型冠状病毒' not in i :
            pass
        else:
            url_list.append(url_[index])
            url_tltles.append(i)
    for index,i in enumerate(url_list):
        url = 'http://www.hebwst.gov.cn/'+i

posted @ 2020-02-10 16:04 袁小丑阅读(106) 评论(0) 编辑收藏举报

会员力量，点亮园子希望

刷新页面返回顶部

袁小丑

python爬虫

公告