会员
周边
众包
新闻
博问
闪存
赞助商
所有博客
当前博客
我的博客
我的园子
账号设置
简洁模式
...
退出登录
注册
登录
Liang
博客园
首页
新随笔
联系
订阅
管理
上一页
1
2
3
4
5
6
7
下一页
2019年2月11日
Scrapy学习篇(八)之settings
摘要: Scrapy设定(settings)提供了定制Scrapy组件的方法。你可以控制包括核心(core),插件(extension),pipeline及spider组件。设定为代码提供了提取以key-value映射的配置值的的全局命名空间(namespace)。 Scrapy内置设置 下面给出scrap
阅读全文
posted @ 2019-02-11 22:08 liangxb
阅读(416)
评论(0)
推荐(0)
编辑
2019年2月2日
Scrapy学习篇(七)之Item Pipeline
摘要: 在之前的Scrapy学习篇(四)之数据的存储的章节中,我们其实已经使用了Item Pipeline,那一章节主要的目的是形成一个笼统的认识,知道scrapy能干些什么,但是,为了形成一个更加全面的体系,我们在这一章节中,将会单独介绍Item Pipeline,方便以后你自定义你的item pipel
阅读全文
posted @ 2019-02-02 14:34 liangxb
阅读(579)
评论(0)
推荐(0)
编辑
Scrapy学习篇(六)之Selector选择器
摘要: 当我们取得了网页的response之后,最关键的就是如何从繁杂的网页中把我们需要的数据提取出来,python从网页中提取数据的包很多,常用的有下面的几个: BeautifulSoup它基于HTML代码的结构来构造一个Python对象, 对不良标记的处理也非常合理,但是速度上有所欠缺。 lxml是一个
阅读全文
posted @ 2019-02-02 14:23 liangxb
阅读(524)
评论(0)
推荐(0)
编辑
2019年2月1日
Scrapy学习篇(五)之Spiders
摘要: Spiders Spider类定义了如何爬取某个网站。包括了爬取的动作(例如:是否跟进链接)以及如何从网页的内容中提取结构化数据(爬取item)。简而言之,Spider就是你定义爬取的动作及分析某个网页(或者是有些网页)的地方。 对spider来说,爬取的循环类似如下: 以初始的URL(start_
阅读全文
posted @ 2019-02-01 14:52 liangxb
阅读(379)
评论(0)
推荐(0)
编辑
Scrapy学习篇(四)之数据存储
摘要: 上一篇中,我们简单的实现了toscrapy网页信息的爬取,并存储到mongo,本篇文章信息看看数据的存储。这一篇主要是实现信息的存储,我们以将信息保存到文件和mongo数据库为例,学习数据的存储,依然是上一节的例子。 编写爬虫 修改items.py文件来定义我们的item Item 是保存爬取到的数
阅读全文
posted @ 2019-02-01 14:44 liangxb
阅读(1976)
评论(0)
推荐(0)
编辑
Scrapy学习篇(三)之创建项目和Scrapy的安装
摘要: 安装Scrapy 了解了Scrapy的框架和部分命令行之后,创建项目,开始使用之前,当然是安装Scrapy框架了。 关于Scrapy框架的安装,请参考:https://cuiqingcai.com/5421.html 创建项目 创建项目是爬取内容的第一步,之前已经讲过,Scrapy通过scrapy
阅读全文
posted @ 2019-02-01 14:34 liangxb
阅读(541)
评论(0)
推荐(0)
编辑
Scrapy学习篇(二)之常用命令行工具
摘要: 简介 Scrapy是通过Scrapy命令行工具进行控制的,包括创建新的项目,爬虫的启动,相关的设置,Scrapy提供了两种内置的命令,分别是全局命令和项目命令,顾名思义,全局命令就是在任意位置都可以执行的命令,而项目命令只有在你新创建了项目之后,在项目目录中才可以执行的命令。在这里,简单的介绍一些常
阅读全文
posted @ 2019-02-01 14:30 liangxb
阅读(369)
评论(0)
推荐(0)
编辑
HTTPConnectionPool(host:XX)Max retries exceeded with url 解决方法
摘要: 爬虫多次访问同一个网站一段时间后会出现错误 HTTPConnectionPool(host:XX)Max retries exceeded with url '<requests.packages.urllib3.connection.HTTPConnection object at XXXX>:
阅读全文
posted @ 2019-02-01 13:47 liangxb
阅读(7136)
评论(0)
推荐(0)
编辑
Scrapy学习篇(一)之框架
摘要: 概览 在具体的学习scrapy之前,我们先对scrapy的架构做一个简单的了解,之后所有的内容都是基于此架构实现的,在初学阶段只需要简单的了解即可,之后的学习中,你会对此架构有更深的理解。下面是scrapy官网给出的最新的架构图示。 基本组件 引擎(Engine) 引擎负责控制数据流在系统中所有组件
阅读全文
posted @ 2019-02-01 13:43 liangxb
阅读(486)
评论(0)
推荐(0)
编辑
python_scrapy_twisted.web.error.SchemeNotSupported: Unsupported scheme: b''_及解决
该文被密码保护。
阅读全文
posted @ 2019-02-01 11:26 liangxb
阅读(5)
评论(0)
推荐(0)
编辑
上一页
1
2
3
4
5
6
7
下一页