2018 年 4月 11 日随笔档案 - 寂静的天空

2018年4月11日

摘要： Scrapy设定(settings)提供了定制Scrapy组件的方法。你可以控制包括核心(core)，插件(extension)，pipeline及spider组件。设定为代码提供了提取以key-value映射的配置值的的全局命名空间(namespace)。 Scrapy内置设置下面给出scrap 阅读全文

posted @ 2018-04-11 20:47 寂静的天空阅读(4422) 评论(0) 推荐(2) 编辑

爬虫（十四）：scrapy下载中间件

摘要：下载器中间件是介于Scrapy的request/response处理的钩子框架，是用于全局修改Scrapy request和response的一个轻量、底层的系统。激活Downloader Middleware 要激活下载器中间件组件，将其加入到 DOWNLOADER_MIDDLEWARES 设置阅读全文

posted @ 2018-04-11 20:46 寂静的天空阅读(1563) 评论(0) 推荐(0) 编辑

爬虫（十三）：scrapy中pipeline的用法

摘要：当Item 在Spider中被收集之后，就会被传递到Item Pipeline中进行处理每个item pipeline组件是实现了简单的方法的python类，负责接收到item并通过它执行一些行为，同时也决定此Item是否继续通过pipeline,或者被丢弃而不再进行处理 item pipelin 阅读全文

posted @ 2018-04-11 16:47 寂静的天空阅读(4180) 评论(0) 推荐(1) 编辑

爬虫（十二）：scrapy中spiders的用法

摘要： Spider类定义了如何爬去某个网站，包括爬取的动作以及如何从网页内容中提取结构化的数据，总的来说spider就是定义爬取的动作以及分析某个网页工作流程分析我们以通过简单的分析源码来理解我通常在写spiders下写爬虫的时候，我们并没有写start_requests来处理start_urls中的阅读全文

posted @ 2018-04-11 16:28 寂静的天空阅读(363) 评论(0) 推荐(0) 编辑

爬虫（十一）：scrapy中的选择器

摘要： Scrapy提取数据有自己的一套机制，被称作选择器（selectors）,通过特定的Xpath或者CSS表达式来选择HTML文件的某个部分Xpath是专门在XML文件中选择节点的语言，也可以用在HTML上。CSS是一门将HTML文档样式化语言，选择器由它定义，并与特定的HTML元素的样式相关联。 X 阅读全文

posted @ 2018-04-11 15:50 寂静的天空阅读(264) 评论(0) 推荐(0) 编辑

爬虫（十）：scrapy命令行详解

摘要：建爬虫项目 scrapy startproject 项目名例子如下：这个时候爬虫的目录结构就已经创建完成了,目录结构如下：接着我们按照提示可以生成一个spider,这里以百度作为例子,生成spider的命令格式为;scrapy genspider 爬虫名字爬虫的网址关于命令详细使用命令的使阅读全文

posted @ 2018-04-11 12:14 寂静的天空阅读(704) 评论(0) 推荐(0) 编辑

爬虫（九）：scrapy框架回顾

摘要： scrapy文档一：安装scrapy a. pip3 install wheel b. 下载twisted http://www.lfd.uci.edu/~gohlke/pythonlibs/#twisted c. 进入下载目录，执行 pip3 install Twisted‑17.1.0‑cp3 阅读全文

posted @ 2018-04-11 11:33 寂静的天空阅读(258) 评论(0) 推荐(0) 编辑

Felix Wang

Do the right things! Talk is cheap,Show me the code!

公告