上一页 1 ··· 40 41 42 43 44 45 46 47 48 ··· 58 下一页
摘要: Handler处理器 和 自定义Opener opener是 urllib2.OpenerDirector 的实例,我们之前一直都在使用的urlopen,它是一个特殊的opener(也就是模块帮我们构建好的)。 但是基本的urlopen()方法不支持代理、cookie等其他的HTTP/HTTPS高级 阅读全文
posted @ 2018-08-11 20:23 zhangqi0828 阅读(293) 评论(0) 推荐(0) 编辑
摘要: urllib2默认只支持HTTP/HTTPS的GET和POST方法 urllib.urlencode() urllib 仅可以接受URL,不能创建 设置了headers 的Request 类实例; 但是 urllib 提供 urlencode 方法用来GET查询字符串的产生,而 urllib2 则没 阅读全文
posted @ 2018-08-11 20:15 zhangqi0828 阅读(269) 评论(0) 推荐(0) 编辑
摘要: urllib2库的基本使用 所谓网页抓取,就是把URL地址中指定的网络资源从网络流中读取出来,保存到本地。 在Python中有很多库可以用来抓取网页,我们先学习urllib2。 urllib2 在 python3.x 中被改为urllib.request urlopen d 我们先来段代码: 执行写 阅读全文
posted @ 2018-08-11 20:09 zhangqi0828 阅读(608) 评论(0) 推荐(0) 编辑
摘要: HTTP代理神器Fiddler Fiddler是一款强大Web调试工具,它能记录所有客户端和服务器的HTTP请求。 Fiddler启动的时候,默认IE的代理设为了127.0.0.1:8888,而其他浏览器是需要手动设置。 工作原理 Fiddler 是以代理web服务器的形式工作的,它使用代理地址:1 阅读全文
posted @ 2018-08-11 19:53 zhangqi0828 阅读(197) 评论(0) 推荐(0) 编辑
摘要: HTTP和HTTPS HTTP协议(HyperText Transfer Protocol,超文本传输协议):是一种发布和接收 HTML页面的方法。 HTTPS(Hypertext Transfer Protocol over Secure Socket Layer)简单讲是HTTP的安全版,在HT 阅读全文
posted @ 2018-08-11 18:24 zhangqi0828 阅读(251) 评论(0) 推荐(0) 编辑
摘要: 手机App抓包爬虫 1. items.py 2. spiders/douyu.py 3. 设置setting.py 4. pipelines.py 在项目根目录下新建main.py文件,用于调试 执行程序 阳光热线问政平台 http://wz.sun0769.com/index.php/questi 阅读全文
posted @ 2018-08-10 11:18 zhangqi0828 阅读(304) 评论(0) 推荐(0) 编辑
摘要: repost :https://blog.csdn.net/tianjinjianzhan 一、基础知识篇: Http Header之User-Agent User Agent中文名为用户代理,是Http协议中的一部分,属于头域的组成部分,User Agent也简称UA。它是一个特殊字符串头,是一种 阅读全文
posted @ 2018-08-10 08:53 zhangqi0828 阅读(5913) 评论(0) 推荐(0) 编辑
摘要: 从零搭建Redis-Scrapy分布式爬虫 Scrapy-Redis分布式策略: 假设有四台电脑:Windows 10、Mac OS X、Ubuntu 16.04、CentOS 7.2,任意一台电脑都可以作为 Master端 或 Slaver端,比如: Master端(核心服务器) :使用 Wind 阅读全文
posted @ 2018-08-09 12:14 zhangqi0828 阅读(3474) 评论(0) 推荐(1) 编辑
摘要: Scrapy 框架 Scrapy是用纯Python实现一个为了爬取网站数据、提取结构性数据而编写的应用框架,用途非常广泛。 框架的力量,用户只需要定制开发几个模块就可以轻松的实现一个爬虫,用来抓取网页内容以及各种图片,非常之方便。 Scrapy 使用了 Twisted['twɪstɪd](其主要对手 阅读全文
posted @ 2018-08-08 18:55 zhangqi0828 阅读(245) 评论(0) 推荐(0) 编辑
摘要: 页面解析和数据提取 一般来讲对我们而言,需要抓取的是某个网站或者某个应用的内容,提取有用的价值。内容一般分为两部分,非结构化的数据 和 结构化的数据。 非结构化数据:先有数据,再有结构, 结构化数据:先有结构、再有数据 不同类型的数据,我们需要采用不同的方式来处理。 非结构化的数据处理 正则表达式 阅读全文
posted @ 2018-08-08 07:17 zhangqi0828 阅读(2870) 评论(0) 推荐(1) 编辑
上一页 1 ··· 40 41 42 43 44 45 46 47 48 ··· 58 下一页