zhangqi0828 - 博客园

2018年8月11日

摘要： Handler处理器和自定义Opener opener是 urllib2.OpenerDirector 的实例，我们之前一直都在使用的urlopen，它是一个特殊的opener（也就是模块帮我们构建好的）。但是基本的urlopen()方法不支持代理、cookie等其他的HTTP/HTTPS高级阅读全文

posted @ 2018-08-11 20:23 zhangqi0828 阅读(293) 评论(0) 推荐(0) 编辑

urllib2的GET和POST请求（五）

摘要： urllib2默认只支持HTTP/HTTPS的GET和POST方法 urllib.urlencode() urllib 仅可以接受URL，不能创建设置了headers 的Request 类实例；但是 urllib 提供 urlencode 方法用来GET查询字符串的产生，而 urllib2 则没阅读全文

posted @ 2018-08-11 20:15 zhangqi0828 阅读(269) 评论(0) 推荐(0) 编辑

urllib2模块的基本使用（四）

摘要： urllib2库的基本使用所谓网页抓取，就是把URL地址中指定的网络资源从网络流中读取出来，保存到本地。在Python中有很多库可以用来抓取网页，我们先学习urllib2。 urllib2 在 python3.x 中被改为urllib.request urlopen d 我们先来段代码：执行写阅读全文

posted @ 2018-08-11 20:09 zhangqi0828 阅读(608) 评论(0) 推荐(0) 编辑

HTTP代理器Fiddler（三）

摘要： HTTP代理神器Fiddler Fiddler是一款强大Web调试工具，它能记录所有客户端和服务器的HTTP请求。 Fiddler启动的时候，默认IE的代理设为了127.0.0.1:8888，而其他浏览器是需要手动设置。工作原理 Fiddler 是以代理web服务器的形式工作的，它使用代理地址：1 阅读全文

posted @ 2018-08-11 19:53 zhangqi0828 阅读(197) 评论(0) 推荐(0) 编辑

http协议再复习（二）

摘要： HTTP和HTTPS HTTP协议（HyperText Transfer Protocol，超文本传输协议）：是一种发布和接收 HTML页面的方法。 HTTPS（Hypertext Transfer Protocol over Secure Socket Layer）简单讲是HTTP的安全版，在HT 阅读全文

posted @ 2018-08-11 18:24 zhangqi0828 阅读(251) 评论(0) 推荐(0) 编辑

2018年8月10日

实战项目

摘要：手机App抓包爬虫 1. items.py 2. spiders/douyu.py 3. 设置setting.py 4. pipelines.py 在项目根目录下新建main.py文件,用于调试执行程序阳光热线问政平台 http://wz.sun0769.com/index.php/questi 阅读全文

posted @ 2018-08-10 11:18 zhangqi0828 阅读(304) 评论(0) 推荐(0) 编辑

浏览器User-Agent大全

摘要： repost :https://blog.csdn.net/tianjinjianzhan 一、基础知识篇： Http Header之User-Agent User Agent中文名为用户代理，是Http协议中的一部分，属于头域的组成部分，User Agent也简称UA。它是一个特殊字符串头，是一种阅读全文

posted @ 2018-08-10 08:53 zhangqi0828 阅读(5913) 评论(0) 推荐(0) 编辑

2018年8月9日

scrapy与redis实战

摘要：从零搭建Redis-Scrapy分布式爬虫 Scrapy-Redis分布式策略：假设有四台电脑：Windows 10、Mac OS X、Ubuntu 16.04、CentOS 7.2，任意一台电脑都可以作为 Master端或 Slaver端，比如： Master端(核心服务器) ：使用 Wind 阅读全文

posted @ 2018-08-09 12:14 zhangqi0828 阅读(3474) 评论(0) 推荐(1) 编辑

2018年8月8日

Scrapy框架

摘要： Scrapy 框架 Scrapy是用纯Python实现一个为了爬取网站数据、提取结构性数据而编写的应用框架，用途非常广泛。框架的力量，用户只需要定制开发几个模块就可以轻松的实现一个爬虫，用来抓取网页内容以及各种图片，非常之方便。 Scrapy 使用了 Twisted['twɪstɪd](其主要对手阅读全文

posted @ 2018-08-08 18:55 zhangqi0828 阅读(245) 评论(0) 推荐(0) 编辑

非结构化数据和结构化数据提取

摘要：页面解析和数据提取一般来讲对我们而言，需要抓取的是某个网站或者某个应用的内容，提取有用的价值。内容一般分为两部分，非结构化的数据和结构化的数据。非结构化数据：先有数据，再有结构，结构化数据：先有结构、再有数据不同类型的数据，我们需要采用不同的方式来处理。非结构化的数据处理正则表达式阅读全文

posted @ 2018-08-08 07:17 zhangqi0828 阅读(2870) 评论(0) 推荐(1) 编辑

zhangqi

be a coder

公告