摘要: 在scrapy中使用selenium的编码流程: 需求 在Scrapy框架中使用selenium来实现编程 网易页面 wangyi.py middlewares.py settings.py 阅读全文
posted @ 2019-03-04 21:55 茉莉花M 阅读(1285) 评论(1) 推荐(1) 编辑
摘要: 一 请求传参 在某种情况下,我们要爬取的数据会在不同的页面中。例如:我们爬取一个电影的网站时,电影的评分和名称在第一个页面中,而要爬取的电影详情在其的子页面中。这时我们就需要动态传参来实现。 需求: 爬取https://www.4567tv.tv/frim/index1.html中的电影名和导演名称 阅读全文
posted @ 2019-03-04 21:44 茉莉花M 阅读(281) 评论(0) 推荐(0) 编辑
摘要: 一 下载Scrapy的下载中间件 下载中间件(Downloader Middlewares) 位于scrapy引擎和下载器之间的一层组件。 下载中间件的作用: (1)引擎请求传递给下载器的过程中,下载中间件可以对请求进行一系列处理。比如:设置User Agent,设置代理等。 (2)在下载器完成将R 阅读全文
posted @ 2019-03-04 21:22 茉莉花M 阅读(2983) 评论(0) 推荐(0) 编辑
摘要: python爬虫之Scrapy框架的post请求和核心组件的工作 流程 一 Scrapy的post请求的实现 在爬虫文件中的爬虫类继承了Spider父类中的start_urls,该方法就可以对start_urls列表中的url发请求。 注意 该方法的默认是对起始的url发起get请求,想法post请 阅读全文
posted @ 2019-03-04 21:20 茉莉花M 阅读(685) 评论(0) 推荐(0) 编辑
摘要: 一 介绍什么Scrapy框架: Scrapy是一个为了爬取网站数据,提取结构性数据而编写的应用框架。所谓的框架,也就是集成了各种的功能。 二 scrapy的安装 widows: (1)先下载wheel (2)下载twisted (3)进入下载目录 在执行twisted (4) 在下载pywin32 阅读全文
posted @ 2019-03-04 20:16 茉莉花M 阅读(269) 评论(0) 推荐(1) 编辑