Fork me on GitHub
摘要: 1、有些站点通过robot协议,防止scrapy爬取,就会出现如下问题: 解决方案:settings.py 文件中:ROBOTSTXT_OBEY = False(默认为true) 2、shell中执行爬虫会看到很多乱七八糟的日志输入 3、爬虫执行日志输出到指定文件中 4、爬去结果保存为指定格式 阅读全文
posted @ 2017-06-12 16:01 迁梦余光 阅读(296) 评论(0) 推荐(0) 编辑