2019 年 1月 17 日随笔档案 - 呜咽的时光喵

2019年1月17日

摘要：小思考：如果想要通过爬虫程序去爬取”糗百“全站数据新闻数据的话，有几种实现方法？方法一：基于Scrapy框架中的Spider的递归爬取进行实现（Request模块递归回调parse方法）。方法二：基于CrawlSpider的自动爬取进行实现（更加简洁和高效）。一.简介 CrawlSpider其阅读全文

posted @ 2019-01-17 16:09 呜咽的时光喵阅读(213) 评论(0) 推荐(0) 编辑

scrapy中selenium的应用

摘要：在通过scrapy框架进行某些网站数据爬取的时候，往往会碰到页面动态数据加载的情况发生，如果直接使用scrapy对其url发请求，是绝对获取不到那部分动态加载出来的数据值。但是通过观察我们会发现，通过浏览器进行url请求发送则会加载出对应的动态加载出的数据。那么如果我们想要在scrapy也获取动态加阅读全文

posted @ 2019-01-17 16:00 呜咽的时光喵阅读(526) 评论(1) 推荐(0) 编辑

ua池和代理池

摘要：下载中间件下载中间件（Downloader Middlewares）位于scrapy引擎和下载器之间的一层组件。作用：（1）引擎将请求传递给下载器过程中，下载中间件可以对请求进行一系列处理。比如设置请求的 User-Agent，设置代理等（2）在下载器完成将Response传递给引擎中，阅读全文

posted @ 2019-01-17 15:48 呜咽的时光喵阅读(353) 评论(0) 推荐(0) 编辑

呜咽的时光喵

"继续奔跑输掉一切也不要输掉微笑"

公告

呜咽的时光喵

"继续奔跑 输掉一切也不要输掉微笑"

公告

"继续奔跑输掉一切也不要输掉微笑"