随笔分类 -  爬虫

爬虫踩过的坑
摘要:1. 请求微信开放平台获取草稿箱:https://api.weixin.qq.com/cgi-bin/draft/batchget 2. 返回数据中有这样的乱码: a = "交æµ\u0081å\u0088\u009bæ\u0096°ï¼\u008cå\u0085±å¡\u0091ç\u0094 阅读全文
posted @ 2024-04-23 16:17 xqs42b 阅读(43) 评论(0) 推荐(0) 编辑
摘要:场景:Google爬虫,获取下拉框搜索关键词,需要获取页面的里面的json字符串如下面: '{\\x22aa\\x22:{},\\x22abd\\x22:{\\x22abd\\x22:false,\\x22deb\\x22:false,\\x22det\\x22:false},\\x22async\ 阅读全文
posted @ 2024-04-13 21:58 xqs42b 阅读(59) 评论(0) 推荐(0) 编辑
摘要:使用scrapy的版本:1.6.0 1.新建一个爬虫项目 我创建第一个scrapy爬虫:scrapy startproject firstSpider 执行过后会生成一个文件,文件结构为: 文件介绍: firstSpider/:项目的python模块 firstSpider/items.py: 目标 阅读全文
posted @ 2019-06-20 00:08 xqs42b 阅读(96) 评论(0) 推荐(0) 编辑
摘要:1.安装 我的环境是ubuntu18.04,安装就比较简单: 2. scrapy结构 2.1 scrapy Engine(引擎):负责spider, itemPipeline, downloader, scheduler 中间的通讯,信号,数据传递等 2.2 scheduler(调度器): 它负责接 阅读全文
posted @ 2019-06-17 23:49 xqs42b 阅读(91) 评论(0) 推荐(0) 编辑
摘要:最近公司有一个新的需求,就是需要爬某一天飞机票的数据,先让我爬携程,去哪儿网的数据,携程的话,还是比较简单的,但是在去哪儿网就遇到问题了,刚开始的时候我是用requests模块来爬去哪儿网,在请求的头信息,有一些随机值,每次请求都不一样,即使你使用上一次请求的随机值,还是会给你返回假数据。我自己给它 阅读全文
posted @ 2019-03-12 23:52 xqs42b 阅读(2894) 评论(0) 推荐(0) 编辑
摘要:我在做火车票抢票器的时候遇到一个问题,就是验证码提取的;一般验证码都是一些http请求的url,但是火车票网站遇到了我没有见过的以data:image/jpg;base64开头的字符串.现在我们就用Python实现base64编码转成图片。 假设我们获取的base64编码是:data:image/j 阅读全文
posted @ 2018-11-15 20:34 xqs42b 阅读(16522) 评论(0) 推荐(1) 编辑

点击右上角即可分享
微信分享提示