2016年12月12日

用urllib2实现一个下载器的思路

摘要: 下载器的构造 用urllib2实现下载器时从以下几个层面实现功能和灵活性: handler redirect, cookie, proxy 动作 timeout 构造请求 headers: ua, cookie, referer 关于代理 网上抓取的http代理可能存在以下问题: 1. 频繁的服务器 阅读全文

posted @ 2016-12-12 10:47 忧伤的南瓜 阅读(167) 评论(0) 推荐(0) 编辑

2016年12月11日

两种动态载入修改后的python模块的方法

摘要: 方案一:循环导入/删除模块 a.py b.py 方案二:reload模块 a.py b.py 阅读全文

posted @ 2016-12-11 16:30 忧伤的南瓜 阅读(1480) 评论(0) 推荐(0) 编辑

关于反爬虫的一些认知

摘要: 定义: 用户 人类用户使用的客户端 老用户 请求头中有服务端已记忆的、可识别的标识 新用户 请求头中无上述标识,初次访问时,服务端一般会通过响应头中Set Cookie进行设置 一个可信任的(主要由人类用户使用的)IP应该具备的特征: 1. 短时间内不应该有大量来自新用户的请求; 2. 老用户在单位 阅读全文

posted @ 2016-12-11 00:01 忧伤的南瓜 阅读(157) 评论(0) 推荐(0) 编辑

2016年12月9日

pip使用国内镜像/源的方法

摘要: 一、修改配置文件 pip配置文件的路径如下,没有的话新建一个: linux/msys2等是:用户目录/.pip/pip.confwindows是:用户目录/pip/pip.ini 用户目录通过下行命令查看:os.path.expanduser('~') 配置文件内容: 二、其他办法1、指定单个库的安 阅读全文

posted @ 2016-12-09 19:10 忧伤的南瓜 阅读(1204) 评论(0) 推荐(0) 编辑

导航