scrapy系列（二）——startproject、genspider创建项目与模板使用

阅读本文之前需要安装scrapy，如果你还没有安装该框架，那么可以看之前一篇文章scrapy1.2windows安装。

现在默认大家都已经成功的安装了scrapy可以开始大展身手了。本文主要讲的是新建项目，有人说了，网上那么多的新建项目介绍，也就一条命令的事，你也好意思单拉出一章来讲？在这里我讲的是大家可能没有注意的事项，希望大家还是看一看的好。

还是老规矩先上官网上的文档介绍：

文档中可以看到新建项目的时候只需要输入一条简单的指令scrapy startproject projectName。如果成功创建项目的话那么控制台会返回：

相信有经验的人经常看到这条信息吧，我们可以看到第一行信息：使用模板创建项目。这也是本文主要讲的内容--模板。

先来看看源码中相关代码：

创建项目时会执行run方法，首先判断startproject后面是不是只有一个参数，然后判断项目名称是否符合语法规则，这都不是重点，扫一眼就过去不用太在意。后面就是根据模板来创建项目的主要代码了，那么模板路径是什么呢？在方法templates_dir中就有介绍了。从代码中可以看到，_templates_base_dir的值应该是从settings中获取，如果该值为空，那么它就是scrapy的path与templates拼接成的路径。而settings中的TEMPLATES_DIR对应的值也是or后面的路径值，如下图所示：然后scrapy将会根据路径值来创建项目相关文件。

那么我们知道这个鬼东西有什么用呢？仅仅是和同道吹牛吗？

个人觉得这个东西还是挺有作用的。首先目前创建的项目路径中settings.py如下图所示：

文件中ROBOTSTXT_OBEY的值为True，意思是遵守robots协议，那么很多网站就没法搞了，比如百度之类的，所以就要修改该值。如果我们需要创建大量的项目难道还要一个个的修改吗？所以可以在模板中修改，将其值改为False，那么以后我们创建的项目里的settings.py文件ROBOTSTXT_OBEY值都是False了。我们还可以向settings.py.tmpl模板文件中填充一些我们需要用到的值，比如default_settings.py文件中默认的settings键值对，这样每次使用的时候就不会在自己项目的settings.py找不到相关的键值了。处理一类的项目比如采集各种新闻网站，我们需要采集的字段都一样，也就是item一样，那么我们的items.py和pipelines.py文件就可以用模板构建，这样就不用每次都要自己手写了。我们还可以在里面构造自己的模板文件，但是这样就需要修改startproject.py源码文件中的TEMPLATES_TO_RENDER值。有兴趣的小伙伴可以自己动手试试。

使用模板可以为我们处理大量相似项目的新建提供极大的便利。现在项目已经按照你的预期进行创建了，我们可以开始下一步发行动了，创建spider。

我刚开始用scrapy的时候，创建spider都是一个个复制的，复制以后挨个修改，有时候稍微漏了一两处地方都会带来一些问题。要是纯手写的话，出错的几率比复制spider还大。后来看文档才发现scrapy提供了命令让我们可以根据模板创建spider，使用的命令是genspider。这个命令就不带着大家看源码了，有兴趣的小伙伴可以自己看看。想查看该命令的用法可以在命令行中输入scrapy genspider, 可以看到如下信息：

scrapy genspider -l 可以输出所有可用模板信息。如果你想知道一种模板，比如crawl里面是什么内容的时候，可以使用命令scrapy genspider -d template (crawl)。等你对几个模板熟悉以后就可以使用scrapy genspider (-t template 括号内可省略，省略的话默认使用basic模板) name domain创建spider。注意这里的name不能使用project的name，也不能使用已存在的spider的name，不然报错。如果你想覆盖以前的spider ，可以在genspider后加--force参数，后面的name是被覆盖spider的name。我们还可以为框架添加自己设计的模板，模板的位置在上面提到的TEMPLATES_DIR路径下的templates\spiders文件夹中。可以在spider模板中增加自己常用的方法，也可以设计一个简单的类框架，以适应你所需要采集的页面规则。

如果修改了TEMPLATES_DIR的值来使用自己构建的模板的话，那么spider和project模板都需要构建，不然会找不到模板报错。

希望这期的模板能给大家带来点作用。

posted @ 2016-10-28 17:25 keyleo 阅读(21153) 评论(0) 编辑收藏举报

刷新页面返回顶部

3w犀鸟

原创机器学习, 自然语言处理, 爬虫, JAVA相关技术文章

scrapy系列（二）——startproject、genspider创建项目与模板使用

公告