liangxb - 博客园

2019年2月11日

摘要： Scrapy设定(settings)提供了定制Scrapy组件的方法。你可以控制包括核心(core)，插件(extension)，pipeline及spider组件。设定为代码提供了提取以key-value映射的配置值的的全局命名空间(namespace)。 Scrapy内置设置下面给出scrap 阅读全文

posted @ 2019-02-11 22:08 liangxb 阅读(416) 评论(0) 推荐(0) 编辑

2019年2月2日

Scrapy学习篇（七）之Item Pipeline

摘要：在之前的Scrapy学习篇（四）之数据的存储的章节中，我们其实已经使用了Item Pipeline，那一章节主要的目的是形成一个笼统的认识，知道scrapy能干些什么，但是，为了形成一个更加全面的体系，我们在这一章节中，将会单独介绍Item Pipeline，方便以后你自定义你的item pipel 阅读全文

posted @ 2019-02-02 14:34 liangxb 阅读(579) 评论(0) 推荐(0) 编辑

Scrapy学习篇（六）之Selector选择器

摘要：当我们取得了网页的response之后，最关键的就是如何从繁杂的网页中把我们需要的数据提取出来，python从网页中提取数据的包很多，常用的有下面的几个： BeautifulSoup它基于HTML代码的结构来构造一个Python对象，对不良标记的处理也非常合理，但是速度上有所欠缺。 lxml是一个阅读全文

posted @ 2019-02-02 14:23 liangxb 阅读(524) 评论(0) 推荐(0) 编辑

2019年2月1日

Scrapy学习篇（五）之Spiders

摘要： Spiders Spider类定义了如何爬取某个网站。包括了爬取的动作(例如:是否跟进链接)以及如何从网页的内容中提取结构化数据(爬取item)。简而言之，Spider就是你定义爬取的动作及分析某个网页(或者是有些网页)的地方。对spider来说，爬取的循环类似如下: 以初始的URL(start_ 阅读全文

posted @ 2019-02-01 14:52 liangxb 阅读(379) 评论(0) 推荐(0) 编辑

Scrapy学习篇（四）之数据存储

摘要：上一篇中，我们简单的实现了toscrapy网页信息的爬取，并存储到mongo，本篇文章信息看看数据的存储。这一篇主要是实现信息的存储，我们以将信息保存到文件和mongo数据库为例，学习数据的存储，依然是上一节的例子。编写爬虫修改items.py文件来定义我们的item Item 是保存爬取到的数阅读全文

posted @ 2019-02-01 14:44 liangxb 阅读(1976) 评论(0) 推荐(0) 编辑

Scrapy学习篇（三）之创建项目和Scrapy的安装

摘要：安装Scrapy 了解了Scrapy的框架和部分命令行之后，创建项目，开始使用之前，当然是安装Scrapy框架了。关于Scrapy框架的安装，请参考：https://cuiqingcai.com/5421.html 创建项目创建项目是爬取内容的第一步，之前已经讲过，Scrapy通过scrapy 阅读全文

posted @ 2019-02-01 14:34 liangxb 阅读(541) 评论(0) 推荐(0) 编辑

Scrapy学习篇（二）之常用命令行工具

摘要：简介 Scrapy是通过Scrapy命令行工具进行控制的，包括创建新的项目，爬虫的启动，相关的设置，Scrapy提供了两种内置的命令，分别是全局命令和项目命令，顾名思义，全局命令就是在任意位置都可以执行的命令，而项目命令只有在你新创建了项目之后，在项目目录中才可以执行的命令。在这里，简单的介绍一些常阅读全文

posted @ 2019-02-01 14:30 liangxb 阅读(369) 评论(0) 推荐(0) 编辑

HTTPConnectionPool（host:XX）Max retries exceeded with url 解决方法

摘要：爬虫多次访问同一个网站一段时间后会出现错误 HTTPConnectionPool（host:XX）Max retries exceeded with url '<requests.packages.urllib3.connection.HTTPConnection object at XXXX>: 阅读全文

posted @ 2019-02-01 13:47 liangxb 阅读(7136) 评论(0) 推荐(0) 编辑

Scrapy学习篇（一）之框架

摘要：概览在具体的学习scrapy之前，我们先对scrapy的架构做一个简单的了解，之后所有的内容都是基于此架构实现的，在初学阶段只需要简单的了解即可，之后的学习中，你会对此架构有更深的理解。下面是scrapy官网给出的最新的架构图示。基本组件引擎（Engine）引擎负责控制数据流在系统中所有组件阅读全文

posted @ 2019-02-01 13:43 liangxb 阅读(486) 评论(0) 推荐(0) 编辑

python_scrapy_twisted.web.error.SchemeNotSupported: Unsupported scheme: b''_及解决

该文被密码保护。阅读全文

posted @ 2019-02-01 11:26 liangxb 阅读(5) 评论(0) 推荐(0) 编辑