摘要: 一、利用selenium 爬取 网易军事新闻 使用流程: 首先需要在中间件导入 DownloadMiddleware函数 spider.py 还需要注意的是使用中间件的同时需要在settings中解释一下Downloadmiddleware 结果是这样就成功喽 阅读全文
posted @ 2019-03-04 17:59 sado 阅读(204) 评论(0) 推荐(0) 编辑
摘要: 一.POST请求 二.请求传参 - 在某些情况下,我们爬取的数据不在同一个页面中,例如,我们爬取一个电影网站,电影的名称,评分在一级页面,而要爬取的其他电影详情在其二级子页面中。这时我们就需要用到请求传参。 ex:爬取www.id97.com电影网,将一级页面中的电影名称,类型,评分一级二级页面中的 阅读全文
posted @ 2019-03-04 16:56 sado 阅读(1240) 评论(0) 推荐(0) 编辑
摘要: 一,介绍 Scrapy是一个为了爬取网站数据,提取结构性数据而编写的应用框架,非常出名,非常强悍。所谓的框架就是一个已经被集成了各种功能(高性能异步下载,队列,分布式,解析,持久化等)的具有很强通用性的项目模板。对于框架的学习,重点是要学习其框架的特性、各个功能的用法即可。 二,安装 三.基本使用 阅读全文
posted @ 2019-03-04 15:19 sado 阅读(264) 评论(0) 推荐(0) 编辑