摘要: 一.CrawlSpider简介 如果想要通过爬虫程序去爬取”糗百“全站数据新闻数据的话,有几种实现方法? 方法一:基于Scrapy框架中的Spider的递归爬取进行实现(Request模块递归回调parse方法)。 方法二:基于CrawlSpider的自动爬取进行实现(更加简洁和高效)。 一.简介 阅读全文
posted @ 2019-03-02 23:05 阿布_alone 阅读(219) 评论(0) 推荐(0) 编辑
摘要: 一.Scrapy的日志等级 1.配置 - 设置日志信息指定输出: 在settings.py配置文件中,加入 LOG_LEVEL = ‘指定日志信息种类’即可。 LOG_FILE = 'log.txt'则表示将日志信息写入到指定文件中进行存储,设置后终端不显示日志内容 2.使用 3.扩展,在普通程序中 阅读全文
posted @ 2019-03-02 19:07 阿布_alone 阅读(1115) 评论(0) 推荐(0) 编辑
摘要: 一.scrapy分页处理 1.分页处理 2.post请求 - 问题:在之前代码中,我们从来没有手动的对start_urls列表中存储的起始url进行过请求的发送,但是起始url的确是进行了请求的发送,那这是如何实现的呢? - 解答:其实是因为爬虫文件中的爬虫类继承到了Spider父类中的start_ 阅读全文
posted @ 2019-03-02 16:52 阿布_alone 阅读(1403) 评论(0) 推荐(0) 编辑
TOP