摘要: 网页抓包 通过观察,改变start后面数字,会出现不同的数据,第一页是0,第二页是60,依次递增,pagesize则是每一页出现多少条,最好不要改变 将网页中的内容粘贴到在线json解析中,可以看到,这是一个标准的json数据,通过在线解析可以看到清晰的结构 获取到的数据是一个json格式的字符串, 阅读全文
posted @ 2018-11-19 21:57 嘎嘣real 阅读(1440) 评论(0) 推荐(0) 编辑
摘要: # requests是第三方库,需要安装 pip install requests import requests # 在日常的爬虫中,封ip也是一个很常用的反爬虫手段,遇到这种情况,我们只需要在每次请求的时候为每个请求指定一个ip地址即可 url = 'http://www.baidu.com' # 这里指定ip,当然这只是个示范, # 获取代理ip有这几个途径: # 付费代理:花钱买代理ip... 阅读全文
posted @ 2018-11-19 20:54 嘎嘣real 阅读(1139) 评论(0) 推荐(0) 编辑
摘要: # requests是第三方库,需要安装 pip install requests import requests import random # 通常很多网站都会设置检测请求头中的User-Agent,所以在编写爬虫代码时一般都会加上user-agent url = 'http://www.zhihu.com' # 如果同一个user-agent请求次数过多,可能也可能被检测出来,所以我们可... 阅读全文
posted @ 2018-11-19 20:24 嘎嘣real 阅读(473) 评论(0) 推荐(0) 编辑