2018 年 10月 26 日随笔档案 - 王竹笙

2018年10月26日

摘要：这里我们通过请求网页例子来一步步理解爬虫性能当我们有一个列表存放了一些url需要我们获取相关数据，我们首先想到的是循环。简单的循环串行这一种方法相对来说是最慢的，因为一个一个循环，耗时是最长的，是所有的时间总和代码如下：通过线程池通过线程池的方式访问，这样整体的耗时是所有连接里耗时最久的那阅读全文

posted @ 2018-10-26 14:59 王竹笙阅读(193) 评论(0) 推荐(0) 编辑

7-----Scrapy框架中Download Middleware用法

摘要：这篇文章中写了常用的下载中间件的用法和例子。Downloader Middleware处理的过程主要在调度器发送 requests请求的时候以及网页将 response结果返回给 spiders的时候，所以从这里我们可以知道下载中间件是介于 Scrapy的 request/response处理的钩子阅读全文

posted @ 2018-10-26 14:48 王竹笙阅读(309) 评论(0) 推荐(0) 编辑

6-----Scrapy框架中Item Pipeline用法

摘要：当Item 在Spider中被收集之后，就会被传递到Item Pipeline中进行处理每个item pipeline组件是实现了简单的方法的python类，负责接收到item并通过它执行一些行为，同时也决定此Item是否继续通过pipeline,或者被丢弃而不再进行处理 item pipelin 阅读全文

posted @ 2018-10-26 14:35 王竹笙阅读(315) 评论(0) 推荐(0) 编辑

5-----Scrapy框架中Spiders用法

摘要： Spider类定义了如何爬去某个网站，包括爬取的动作以及如何从网页内容中提取结构化的数据，总的来说spider就是定义爬取的动作以及分析某个网页工作流程分析 1、以初始的URL初始化Request，并设置回调函数，当该request下载完毕并返回时，将生成response，并作为参数传给回调函数. 阅读全文

posted @ 2018-10-26 13:44 王竹笙阅读(308) 评论(0) 推荐(0) 编辑

4-----Scrapy框架中选择器的用法

摘要： Scrapy提取数据有自己的一套机制，被称作选择器（selectors）,通过特定的Xpath或者CSS表达式来选择HTML文件的某个部分Xpath是专门在XML文件中选择节点的语言，也可以用在HTML上。CSS是一门将HTML文档样式化语言，选择器由它定义，并与特定的HTML元素的样式相关联。 X 阅读全文

posted @ 2018-10-26 13:42 王竹笙阅读(200) 评论(0) 推荐(0) 编辑

3-----Scrapy框架的命令行详解

摘要：创建爬虫项目 scrapy startproject 项目名例子如下：这个时候爬虫的目录结构就已经创建完成了,目录结构如下：接着我们按照提示可以生成一个spider,这里以百度作为例子,生成spider的命令格式为;scrapy genspider 爬虫名字爬虫的网址关于命令详细使用命令阅读全文

posted @ 2018-10-26 13:04 王竹笙阅读(279) 评论(0) 推荐(0) 编辑

2-----Scrapy框架架构和原理

摘要：这一篇文章主要是为了对scrapy框架的工作流程以及各个组件功能的介绍 Scrapy目前已经可以很好的在python3上运行Scrapy使用了Twisted作为框架，Twisted有些特殊的地方是它是事件驱动的，并且比较适合异步的代码。对于会阻塞线程的操作包含访问文件、数据库或者Web、产生新的进程阅读全文

posted @ 2018-10-26 10:36 王竹笙阅读(270) 评论(0) 推荐(0) 编辑

1-----Scrapy框架整体的一个了解

摘要：这里是通过爬取伯乐在线的全部文章为例子，让自己先对scrapy进行一个整理的理解该例子中的详细代码会放到我的github地址：https://github.com/pythonsite/spider/tree/master/jobboleSpider 注：这个文章并不会对详细的用法进行讲解，是为了阅读全文

posted @ 2018-10-26 10:25 王竹笙阅读(216) 评论(0) 推荐(0) 编辑

王竹笙

纵浪大化中，不喜亦不忧，应尽便须尽，无复独多虑。

公告