scrapy-爬取斗图

scrapy-爬取斗图代码

<一> 开局三连杀

1.创建run的文件

2.setings中配置scrapy中ROBOTSTXT_OBEY = True

解释:==观察代码可以发现，默认为True，就是要遵守robots.txt 的规则，那么 robots.txt 是个什么东西呢？

通俗来说， robots.txt 是遵循 Robot协议的一个文件，它保存在网站的服务器中，它的作用是，

告诉搜索引擎爬虫，本网站哪些目录下的网页不希望你进行爬取收录。在Scrapy启动后，

会在第一时间访问网站的 robots.txt 文件，然后决定该网站的爬取范围。

当然，我们并不是在做搜索引擎

，而且在某些情况下我们想要获取的内容恰恰是被 robots.txt 所禁止访问的。所以，某些时候

，我们就要将此配置项设置为 False ，拒绝遵守 Robot协议！

<二>开始在APP内写我们的爬虫程序

用的东西都爬取到了如果开始存库可以开始第一步

第二步

将items 导入到APP 内并且实例化对象看上操作

第三部主要是将爬取内容存入文件夹

第四步在settings中查找pip 优先权限释放如下图

posted @ 2019-05-19 11:10 IT_Allen 阅读(162) 评论(0) 编辑收藏举报

刷新页面返回顶部

Allen