2017 年 1月 4 日随笔档案 - wangheng1409

2017年1月4日

摘要： 0x01 常见的反爬虫这几天在爬一个网站，网站做了很多反爬虫工作，爬起来有些艰难，花了一些时间才绕过反爬虫。在这里把我写爬虫以来遇到的各种反爬虫策略和应对的方法总结一下。从功能上来讲，爬虫一般分为数据采集，处理，储存三个部分。这里我们只讨论数据采集部分。一般网站从三个方面反爬虫：用户请求的He 阅读全文

posted @ 2017-01-04 12:03 wangheng1409 阅读(171) 评论(1) 推荐(1) 编辑

爬虫requests模块 2

摘要：会话对象¶ 会话对象让你能够跨请求保持某些参数。它也会在同一个 Session 实例发出的所有请求之间保持 cookie，期间使用 urllib3 的 connection pooling 功能。所以如果你向同一主机发送多个请求，底层的 TCP 连接将会被重用，从而带来显著的性能提升。 (参见 H 阅读全文

posted @ 2017-01-04 11:59 wangheng1409 阅读(447) 评论(1) 推荐(1) 编辑

爬虫requests模块 1

摘要：让我们从一些简单的示例开始吧。发送请求¶ 使用 Requests 发送网络请求非常简单。一开始要导入 Requests 模块： >>> import requests 然后，尝试获取某个网页。本例子中，我们来获取 Github 的公共时间线： >>> r = requests.get('http 阅读全文

posted @ 2017-01-04 11:56 wangheng1409 阅读(464) 评论(0) 推荐(0) 编辑

Python爬虫进阶二之PySpider框架安装配置

摘要：关于首先，在此附上项目的地址，以及官方文档 PySpider 官方文档安装 1. pip 首先确保你已经安装了pip，若没有安装，请参照 pip安装 2. phantomjs PhantomJS 是一个基于 WebKit 的服务器端 JavaScript API。它全面支持web而不需浏览器支持阅读全文

posted @ 2017-01-04 11:46 wangheng1409 阅读(340) 评论(0) 推荐(0) 编辑

爬虫框架概述

摘要：综述爬虫入门之后，我们有两条路可以走。一个是继续深入学习，以及关于设计模式的一些知识，强化Python相关知识，自己动手造轮子，继续为自己的爬虫增加分布式，多线程等功能扩展。另一条路便是学习一些优秀的框架，先把这些框架用熟，可以确保能够应付一些基本的爬虫任务，也就是所谓的解决温饱问题，然后再深入阅读全文

posted @ 2017-01-04 11:44 wangheng1409 阅读(312) 评论(1) 推荐(0) 编辑

wangheng #这里是用户名

公告