随笔分类 - 爬虫
爬虫踩过的坑
摘要:1. 请求微信开放平台获取草稿箱:https://api.weixin.qq.com/cgi-bin/draft/batchget 2. 返回数据中有这样的乱码: a = "交æµ\u0081å\u0088\u009bæ\u0096°ï¼\u008cå\u0085±å¡\u0091ç\u0094
阅读全文
摘要:场景:Google爬虫,获取下拉框搜索关键词,需要获取页面的里面的json字符串如下面: '{\\x22aa\\x22:{},\\x22abd\\x22:{\\x22abd\\x22:false,\\x22deb\\x22:false,\\x22det\\x22:false},\\x22async\
阅读全文
摘要:使用scrapy的版本:1.6.0 1.新建一个爬虫项目 我创建第一个scrapy爬虫:scrapy startproject firstSpider 执行过后会生成一个文件,文件结构为: 文件介绍: firstSpider/:项目的python模块 firstSpider/items.py: 目标
阅读全文
摘要:1.安装 我的环境是ubuntu18.04,安装就比较简单: 2. scrapy结构 2.1 scrapy Engine(引擎):负责spider, itemPipeline, downloader, scheduler 中间的通讯,信号,数据传递等 2.2 scheduler(调度器): 它负责接
阅读全文
摘要:最近公司有一个新的需求,就是需要爬某一天飞机票的数据,先让我爬携程,去哪儿网的数据,携程的话,还是比较简单的,但是在去哪儿网就遇到问题了,刚开始的时候我是用requests模块来爬去哪儿网,在请求的头信息,有一些随机值,每次请求都不一样,即使你使用上一次请求的随机值,还是会给你返回假数据。我自己给它
阅读全文
摘要:我在做火车票抢票器的时候遇到一个问题,就是验证码提取的;一般验证码都是一些http请求的url,但是火车票网站遇到了我没有见过的以data:image/jpg;base64开头的字符串.现在我们就用Python实现base64编码转成图片。 假设我们获取的base64编码是:data:image/j
阅读全文