爬取静态网页

爬取某导航网页全部网址

进入网站之后需要获取网站正确url

使用Chrome自带检查工具在网页右键--检查利用全局搜索(ctrl+f) 12306 获取数据存储文件 list

点击查看文件信息

得到url:http://xxxxx

同时得到response method 为post 在最下方得到 Request Payload信息

在Response栏获得json数据将其全选复制到json在线解析网站得到json数据正确格式并利于分析

根据所需数据修改代码

以下为代码示例,我只获取了分类名和网站名,然后将其写入txt文件中

import requests
url = 'http://xxxxxxxxxxx'    #获取网站正确url

data ={
    'fid': '167',
    'is_index': '0',
}
headers = {
    #请求头信息
    'User-Agent':'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/79.0.3945.88 Safari/537.36'
}
response = requests.post(url=url,headers=headers,data=data).json()['data']

with open('wangzhan.txt','w',encoding='utf-8') as fp:
    for i in response:
        fp.write(i['name']+'\n')
        for i in i['web']:
            fp.write(i['name']+'\n'+i['url']+"\n")

            
print('下载完成')

以下为文档内容部分

posted @ 2020-03-06 15:35 催人老阅读(1144) 评论(0) 收藏举报

刷新页面返回顶部

催人老

爬取静态网页

公告