随笔分类 -  Python

摘要:代理是什么? 代理实际上就是代理服务器, 代理服务器的工作机制很象我们生活中常常提及的代理商,假设你的机器为A机,你想获得的数据由B机提供,代理服务器为C机,那么具体的连接过程是这样的。 首先,A机需要B机的数据,它与C机建立连接,C机接收到A机的数据请求后,与B机建立连接,下载A机所请求的B机上的 阅读全文
posted @ 2019-01-12 21:39 一杯闪光喵 阅读(321) 评论(4) 推荐(1) 编辑
摘要:项目:艺龙国内机票实时数据爬虫 使用模块:requests(请求模块),js2py(js执行模块),json(解析json),xpath(解析网页)。 项目流程: 分析网站数据来源。 编写爬虫脚本。 验证数据准确性。 js逆向破解参数生成。 更换请求参数城市(飞机起飞城市和落地城市或日期)测试结果是 阅读全文
posted @ 2018-12-24 15:08 一杯闪光喵 阅读(6162) 评论(0) 推荐(0) 编辑
摘要:在程序中,经常需要将一组(通常是同为某个类型的)数据元素作为整体管理和使用,需要创建这种元素组,用变量记录它们,传进传出函数等。一组数据中包含的元素个数可能发生变化(可以增加或删除元素)。 对于这种需求,最简单的解决方案便是将这样一组元素看成一个序列,用元素在序列里的位置和顺序,表示实际应用中的某种 阅读全文
posted @ 2018-12-14 16:31 一杯闪光喵 阅读(393) 评论(0) 推荐(0) 编辑
摘要:在某个Flask项目在做后端接口时需要设置超时响应,因为接口中使用爬虫请求了多个网站,响应时间时长时短。 我需要设置一个最大响应时间,时间内如果接口爬虫没跑完,直接返回请求超时。 从网上了解到有两种方法,废话不多说直接上代码。 方法1:使用线程控制 超时设置3s,线程调用函数运行2s,这里返回a的值 阅读全文
posted @ 2018-11-28 16:52 一杯闪光喵 阅读(10428) 评论(0) 推荐(0) 编辑
摘要:了解异步编程 楼主在工作中遇到了以下问题,开发接口爬取数据代码完成之后要写入redis缓存,但是在写入缓存的过程花费2-3s,进行这样就大大影响了接口的性能,于是想到了使用异步存储。 传统的同步编程是一种请求响应模型,调用一个方法,等待其响应返回.异步编程就是要重新考虑是否需要响应的问题,也就是缩小 阅读全文
posted @ 2018-11-21 10:01 一杯闪光喵 阅读(23871) 评论(2) 推荐(3) 编辑
摘要:python2和python3对于url的解码和编码 某天做爬虫时遇到一个post请求的参数是编码过的字符串如下,看不懂,初步判断可能是url编码 对于不了解url编码,解码的同学,我简单解释一下,也可以参考 http://www.w3school.com.cn/tags/html_ref_urle 阅读全文
posted @ 2018-11-09 14:55 一杯闪光喵 阅读(5837) 评论(0) 推荐(0) 编辑
摘要:PyMySQL 安装 在使用 PyMySQL 之前,我们需要确保 PyMySQL 已安装。 PyMySQL 下载地址:https://github.com/PyMySQL/PyMySQL。 如果还未安装,我们可以使用以下命令安装最新版的 PyMySQL: 数据库连接 通过如下代码测试数据库连接 通过 阅读全文
posted @ 2018-05-07 22:12 一杯闪光喵 阅读(1524) 评论(0) 推荐(0) 编辑