摘要:
常用的反反爬策略 通常防止爬虫被反主要有以下几策略: 动态设置User-Agent(随机切换User-Agent,模拟不同用户的浏览器信息。) 禁用cookies(也就是不启用cookies middleware,不向server发送cookies,有些网站通过cookies的使用发现爬虫,可以通过 阅读全文
摘要:
了解CrawlSpider 踏实爬取一般网站的常用spider,其中定义了一些规则(rule)来提供跟进link的方便机制,也许该spider不适合你的目标网站,但是对于大多数情况是可以使用的。因此,可以以此为七点,根据需求修改部分方法,当然也可以实现自己的spider。 官方文档:http://s 阅读全文
摘要:
利用scrapy框架抓取腾讯的招聘信息,爬取地址为:https://hr.tencent.com/position.php 抓取字段包括:招聘岗位,人数,工作地点,发布时间,及具体的工作要求和工作任务 最终结果保存为两个文件,一个文件放前面的四个字段信息,一个放具体内容信息 1.网页分析 通过网页源 阅读全文
摘要:
什么是scrapy shell? Scrapy终端是一个交互终端,我们可以在未启动spider的情况下尝试及调试代码,也可以用来测试xpath或css表达是,来查看他们的工作方式,方便爬取页面中的数据。 selector选择器(scrapy内置) Selecctor有四个基本方法,最常用的还是xpa 阅读全文
摘要:
使用scrapy抓取目标url下所有的课程名和价格,并将数据保存为json格式url=http://www.tanzhouedu.com/mall/course/initAllCourse 观察网页并分析该网页: 是一个ajax加载的页面,每次数据变化,但是url不变化,通过查看headers中的信 阅读全文
摘要:
什么是scrapy框架? scrapy框架的安装 1.windowes下的安装 Python 2 / 3升级pip版本: 通过pip 安装 Scrapy 框架 2.Ubuntu下的安装 Ubuntu 需要9.10或以上版本安装方式Python 2 / 3安装非Python的依赖 通过pip 安装 S 阅读全文
摘要:
什么是greenlet? 虽然CPython(标准Python)能够通过生成器来实现协程,但使用起来还并不是很方便。 与此同时,Python的一个衍生版 Stackless Python实现了原生的协程,它更利于使用。 于是,大家开始将 Stackless 中关于协程的代码单独拿出来做成了CPyth 阅读全文
摘要:
协程,又称为微线程,可以理解成可切换的函数,或生成器,协程中始终在单线程中执行,因此没有资源冲突问题,不需要锁机制。以下以菲波那切数列为例,加上自己的一些理解,稍微聊一下这个东西。 斐波那契数列的普通实现 一般的函数只能有一个返回值,return,且return后程序不再执行。如下: 斐波那契数列y 阅读全文