摘要: python3下urllib.request库高级应用之ProxyHandler处理器_代理设置 使用代理IP,这是爬虫/反爬虫的第二大招,通常也是最好用的。 很多网站会检测某一段时间某个IP的访问次数(通过流量统计,系统日志等),如果访问次数多的不像正常人,它会禁止这个IP的访问。 所以我们可以设 阅读全文
posted @ 2018-05-17 15:50 听海8 阅读(16662) 评论(0) 推荐(2) 编辑
摘要: python3下urllib.request库高级应用之Handle处理器和自定义Opener 经过前面对urllib.request库的频繁使用,都知道我们使用urllib库请求是都是使用urlopen()方法实现的。实际上它的底层是使用HTTPHandler个Opener来实现的。查看urlli 阅读全文
posted @ 2018-05-16 09:06 听海8 阅读(8375) 评论(0) 推荐(2) 编辑
摘要: Python3处理HTTPS请求 SSL证书验证 金融类的公司网站一般都是https 开头的网站,urllib.request可以为 HTTPS 请求验证SSL证书,就像web浏览器一样,如果网站的SSL证书是经过CA认证的,则能够正常访问,如: 例子一:编写一个https请求程序访问(平安好伙伴出 阅读全文
posted @ 2018-05-15 15:31 听海8 阅读(18005) 评论(0) 推荐(1) 编辑
摘要: Python3之利用Cookie模拟登录 利用Cookie模拟登录步骤: 2.登录成功点“客户管理”模块。 3. 进入客户管理模块,显示客户列表。 4.通过抓包工具抓取客户列表,得到登录后的Cookie信息。 GET http://demo.bxcker.com/customer/index.sht 阅读全文
posted @ 2018-05-15 12:01 听海8 阅读(823) 评论(0) 推荐(0) 编辑
摘要: 1. 打开sublime text->新建新的文件 2. 从抓包工具抓下来的header信息 Host: demo.bxcker.com Connection: keep-alive Pragma: no-cache Cache-Control: no-cache Accept: */* X-Req 阅读全文
posted @ 2018-05-15 11:01 听海8 阅读(1291) 评论(0) 推荐(0) 编辑
摘要: URL编码与解码 一.parse.urlencode() 与parse.unquote() urllib 和urllib.request都是接受URL请求的相关模块,但是提供了不同的功能。两个最显著的不同如下: 1.urllib 仅可以接受URL,不能创建 设置了headers 的Request 类 阅读全文
posted @ 2018-05-14 11:19 听海8 阅读(5243) 评论(0) 推荐(0) 编辑
摘要: Python3环境安装Scrapy爬虫框架过程 1. 安装wheel pip install wheel 安装检查: 2. 安装lxml pip install lxml-4.2.1-cp36-cp36m-win_amd64.whl 去https://www.lfd.uci.edu/~gohlke/ 阅读全文
posted @ 2018-05-14 10:38 听海8 阅读(793) 评论(0) 推荐(1) 编辑
摘要: Python3 response响应常用的方法 例子一:获取HTTP请求响应码 import urllib.request header={"User-Agent": "Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/537.36 (KHTML, li 阅读全文
posted @ 2018-05-14 10:20 听海8 阅读(4223) 评论(0) 推荐(0) 编辑
摘要: Python3爬虫介绍 一.为什么要做爬虫 首先请问:都说现在是"大数据时代",那数据从何而来? 企业产生的用户数据:百度指数、阿里指数、TBI腾讯浏览指数、新浪微博指数 数据平台购买数据:数据堂、国云数据市场、贵阳大数据交易所 政府/机构公开的数据:中华人民共和国国家统计局数据、世界银行公开数据、 阅读全文
posted @ 2018-05-14 10:15 听海8 阅读(2278) 评论(0) 推荐(0) 编辑
摘要: Python3 urllib.request库的基本使用 所谓网页抓取,就是把URL地址中指定的网络资源从网络流中读取出来,保存到本地。 在Python中有很多库可以用来抓取网页,我们先学习urllib.request库。 urllib.request库 是 Python3 自带的模块(不需要下载, 阅读全文
posted @ 2018-05-14 10:10 听海8 阅读(1571) 评论(0) 推荐(0) 编辑