scrapy-爬取斗图
scrapy-爬取斗图代码
<一> 开局三连杀
1.创建run的文件
2.setings中配置scrapy中ROBOTSTXT_OBEY = True
解释:==观察代码可以发现,默认为True,就是要遵守robots.txt 的规则,那么 robots.txt 是个什么东西呢?
通俗来说, robots.txt 是遵循 Robot协议 的一个文件,它保存在网站的服务器中,它的作用是,
告诉搜索引擎爬虫,本网站哪些目录下的网页 不希望 你进行爬取收录。在Scrapy启动后,
会在第一时间访问网站的 robots.txt 文件,然后决定该网站的爬取范围。
当然,我们并不是在做搜索引擎
,而且在某些情况下我们想要获取的内容恰恰是被 robots.txt 所禁止访问的。所以,某些时候
,我们就要将此配置项设置为 False ,拒绝遵守 Robot协议 !
3.
<二>开始在APP内写我们的爬虫程序
用的东西都 爬取到了 如果开始存库可以开始 第一步
第二步
将items 导入到APP 内 并且实例化对象 看上 操作
第三部 主要是将 爬取内容 存入文件夹
第四步 在settings中 查找pip 优先权限 释放 如下图