随笔- 56 文章- 0 评论- 1 阅读- 60078

随笔分类 - 爬虫

爬虫踩过的坑

摘要：1. 请求微信开放平台获取草稿箱：https://api.weixin.qq.com/cgi-bin/draft/batchget 2. 返回数据中有这样的乱码： a = "äº¤æµ\u0081å\u0088\u009bæ\u0096°ï¼\u008cå\u0085±å¡\u0091ç\u0094 阅读全文

posted @ 2024-04-23 16:17 xqs42b 阅读(43) 评论(0) 推荐(0) 编辑

从Google网页中通过正则表达式获取json如何转换unicode对象

摘要：场景：Google爬虫，获取下拉框搜索关键词，需要获取页面的里面的json字符串如下面： '{\\x22aa\\x22:{},\\x22abd\\x22:{\\x22abd\\x22:false,\\x22deb\\x22:false,\\x22det\\x22:false},\\x22async\ 阅读全文

posted @ 2024-04-13 21:58 xqs42b 阅读(59) 评论(0) 推荐(0) 编辑

scrapy学习2

摘要：使用scrapy的版本：1.6.0 1.新建一个爬虫项目我创建第一个scrapy爬虫：scrapy startproject firstSpider 执行过后会生成一个文件，文件结构为：文件介绍： firstSpider/：项目的python模块 firstSpider/items.py: 目标阅读全文

posted @ 2019-06-20 00:08 xqs42b 阅读(96) 评论(0) 推荐(0) 编辑

scrapy学习1

摘要：1.安装我的环境是ubuntu18.04，安装就比较简单： 2. scrapy结构 2.1 scrapy Engine(引擎)：负责spider, itemPipeline, downloader, scheduler 中间的通讯，信号，数据传递等 2.2 scheduler(调度器): 它负责接阅读全文

posted @ 2019-06-17 23:49 xqs42b 阅读(91) 评论(0) 推荐(0) 编辑

去哪儿网机票爬虫

摘要：最近公司有一个新的需求，就是需要爬某一天飞机票的数据，先让我爬携程，去哪儿网的数据，携程的话，还是比较简单的，但是在去哪儿网就遇到问题了，刚开始的时候我是用requests模块来爬去哪儿网，在请求的头信息，有一些随机值，每次请求都不一样，即使你使用上一次请求的随机值，还是会给你返回假数据。我自己给它阅读全文

posted @ 2019-03-12 23:52 xqs42b 阅读(2894) 评论(0) 推荐(0) 编辑

Python base64编码，转图片

摘要：我在做火车票抢票器的时候遇到一个问题，就是验证码提取的；一般验证码都是一些http请求的url，但是火车票网站遇到了我没有见过的以data:image/jpg;base64开头的字符串.现在我们就用Python实现base64编码转成图片。假设我们获取的base64编码是：data:image/j 阅读全文

posted @ 2018-11-15 20:34 xqs42b 阅读(16522) 评论(0) 推荐(1) 编辑