温良Miner - 博客园

2018年5月16日

摘要：常用的反反爬策略通常防止爬虫被反主要有以下几策略: 动态设置User-Agent（随机切换User-Agent，模拟不同用户的浏览器信息。）禁用cookies（也就是不启用cookies middleware，不向server发送cookies，有些网站通过cookies的使用发现爬虫，可以通过阅读全文

posted @ 2018-05-16 13:02 温良Miner 阅读(3653) 评论(0) 推荐(0)

2018年5月13日

scrapy的CrawlSpider类

摘要：了解CrawlSpider 踏实爬取一般网站的常用spider，其中定义了一些规则（rule）来提供跟进link的方便机制，也许该spider不适合你的目标网站，但是对于大多数情况是可以使用的。因此，可以以此为七点，根据需求修改部分方法，当然也可以实现自己的spider。官方文档：http://s 阅读全文

posted @ 2018-05-13 13:45 温良Miner 阅读(2417) 评论(0) 推荐(0)

2018年5月10日

利用scrapy爬取腾讯的招聘信息

摘要：利用scrapy框架抓取腾讯的招聘信息，爬取地址为：https://hr.tencent.com/position.php 抓取字段包括：招聘岗位，人数，工作地点，发布时间，及具体的工作要求和工作任务最终结果保存为两个文件，一个文件放前面的四个字段信息，一个放具体内容信息 1.网页分析通过网页源阅读全文

posted @ 2018-05-10 11:31 温良Miner 阅读(3243) 评论(0) 推荐(0)

scrapy知识补充--scrapy shell 及Spider

摘要：什么是scrapy shell? Scrapy终端是一个交互终端，我们可以在未启动spider的情况下尝试及调试代码，也可以用来测试xpath或css表达是，来查看他们的工作方式，方便爬取页面中的数据。 selector选择器（scrapy内置） Selecctor有四个基本方法，最常用的还是xpa 阅读全文

posted @ 2018-05-10 08:38 温良Miner 阅读(559) 评论(0) 推荐(0)

2018年5月9日

scrapy的一个简单小项目

摘要：使用scrapy抓取目标url下所有的课程名和价格，并将数据保存为json格式url=http://www.tanzhouedu.com/mall/course/initAllCourse 观察网页并分析该网页：是一个ajax加载的页面，每次数据变化，但是url不变化，通过查看headers中的信阅读全文

posted @ 2018-05-09 10:12 温良Miner 阅读(2661) 评论(0) 推荐(0)

scrapy框架介绍及安装

摘要：什么是scrapy框架？ scrapy框架的安装 1.windowes下的安装 Python 2 / 3升级pip版本：通过pip 安装 Scrapy 框架 2.Ubuntu下的安装 Ubuntu 需要9.10或以上版本安装方式Python 2 / 3安装非Python的依赖通过pip 安装 S 阅读全文

posted @ 2018-05-09 08:40 温良Miner 阅读(483) 评论(0) 推荐(0)

2018年5月8日

并发编程--greenlet与gevent

摘要：什么是greenlet? 虽然CPython（标准Python）能够通过生成器来实现协程，但使用起来还并不是很方便。与此同时，Python的一个衍生版 Stackless Python实现了原生的协程，它更利于使用。于是，大家开始将 Stackless 中关于协程的代码单独拿出来做成了CPyth 阅读全文

posted @ 2018-05-08 15:45 温良Miner 阅读(1693) 评论(0) 推荐(0)

并发编程--协程

摘要：协程，又称为微线程，可以理解成可切换的函数，或生成器，协程中始终在单线程中执行，因此没有资源冲突问题，不需要锁机制。以下以菲波那切数列为例，加上自己的一些理解，稍微聊一下这个东西。斐波那契数列的普通实现一般的函数只能有一个返回值，return，且return后程序不再执行。如下：斐波那契数列y 阅读全文

posted @ 2018-05-08 12:08 温良Miner 阅读(299) 评论(0) 推荐(1)

2018年5月7日

并发编程--进程池与线程池-练习3

摘要：通过继承multipocessing类，实现一个进程池。代码如下：阅读全文

posted @ 2018-05-07 10:13 温良Miner 阅读(151) 评论(0) 推荐(0)

并发编程--进程池与线程池-练习2

摘要：通过继承threading类，实现一个线程池实现代码：阅读全文

posted @ 2018-05-07 10:12 温良Miner 阅读(153) 评论(0) 推荐(0)