2019 年 3月 2 日随笔档案 - 阿布_alone

2019年3月2日

摘要：一.CrawlSpider简介如果想要通过爬虫程序去爬取”糗百“全站数据新闻数据的话，有几种实现方法？方法一：基于Scrapy框架中的Spider的递归爬取进行实现（Request模块递归回调parse方法）。方法二：基于CrawlSpider的自动爬取进行实现（更加简洁和高效）。一.简介阅读全文

posted @ 2019-03-02 23:05 阿布_alone 阅读(219) 评论(0) 推荐(0) 编辑

scraoy之日志等级处理/多pipeline的处理/多item的处理

摘要：一.Scrapy的日志等级 1.配置 - 设置日志信息指定输出：在settings.py配置文件中，加入 LOG_LEVEL = ‘指定日志信息种类’即可。 LOG_FILE = 'log.txt'则表示将日志信息写入到指定文件中进行存储,设置后终端不显示日志内容 2.使用 3.扩展,在普通程序中阅读全文

posted @ 2019-03-02 19:07 阿布_alone 阅读(1115) 评论(0) 推荐(0) 编辑

scrapy模块之分页处理,post请求,cookies处理,请求传参

摘要：一.scrapy分页处理 1.分页处理 2.post请求 - 问题：在之前代码中，我们从来没有手动的对start_urls列表中存储的起始url进行过请求的发送，但是起始url的确是进行了请求的发送，那这是如何实现的呢？ - 解答：其实是因为爬虫文件中的爬虫类继承到了Spider父类中的start_ 阅读全文

posted @ 2019-03-02 16:52 阿布_alone 阅读(1403) 评论(0) 推荐(0) 编辑

阿布alone

公告