2018 年 11月 19 日随笔档案 - 嘎嘣real

2018年11月19日

摘要：网页抓包通过观察，改变start后面数字，会出现不同的数据，第一页是0,第二页是60，依次递增，pagesize则是每一页出现多少条，最好不要改变将网页中的内容粘贴到在线json解析中，可以看到，这是一个标准的json数据，通过在线解析可以看到清晰的结构获取到的数据是一个json格式的字符串，阅读全文

posted @ 2018-11-19 21:57 嘎嘣real 阅读(1442) 评论(0) 推荐(0) 编辑

python反爬之封IP

摘要： # requests是第三方库，需要安装 pip install requests import requests # 在日常的爬虫中，封ip也是一个很常用的反爬虫手段，遇到这种情况，我们只需要在每次请求的时候为每个请求指定一个ip地址即可 url = 'http://www.baidu.com' # 这里指定ip,当然这只是个示范， #　获取代理ip有这几个途径： # 付费代理:花钱买代理ip... 阅读全文

posted @ 2018-11-19 20:54 嘎嘣real 阅读(1148) 评论(0) 推荐(0) 编辑

python反爬之用户代理

摘要： # requests是第三方库，需要安装 pip install requests import requests import random # 通常很多网站都会设置检测请求头中的User-Agent，所以在编写爬虫代码时一般都会加上user-agent url = 'http://www.zhihu.com' # 如果同一个user-agent请求次数过多，可能也可能被检测出来,所以我们可... 阅读全文

posted @ 2018-11-19 20:24 嘎嘣real 阅读(479) 评论(0) 推荐(0) 编辑

嘎嘣real

公告