爬取静态网页

爬取某导航网页全部网址

进入网站之后需要获取网站正确url

使用Chrome自带检查工具 在网页右键--检查 利用全局搜索(ctrl+f) 12306 获取数据存储文件 list

 

 

 

点击查看文件信息

 

 

得到url:http://xxxxx

同时得到response method 为post 在最下方得到 Request Payload信息

 

img

 

在Response栏获得json数据 将其全选 复制到json在线解析网站 得到json数据正确格式 并利于分析img

 

 

 

 

 

 

 

 

根据所需数据 修改代码

以下为代码示例,我只获取了分类名和网站名,然后将其写入txt文件中

import requests
url = 'http://xxxxxxxxxxx'   #获取网站正确url

data ={
  'fid': '167',
  'is_index': '0',
}
headers = {
  #请求头信息
  'User-Agent':'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/79.0.3945.88 Safari/537.36'
}
response = requests.post(url=url,headers=headers,data=data).json()['data']

with open('wangzhan.txt','w',encoding='utf-8') as fp:
  for i in response:
      fp.write(i['name']+'\n')
      for i in i['web']:
          fp.write(i['name']+'\n'+i['url']+"\n")

           
print('下载完成')

 

以下为文档内容部分

 

 

 

posted @ 2020-03-06 15:35  催人老  阅读(1099)  评论(0编辑  收藏  举报