2019年7月3日

scrapy中使用 IP 代理

摘要: 在 scrapy 中使用 ip 代理需要借助中间件的功能 首先在settings 中设置好中间件,中间件优先级数字越小越先被执行 然后编写中间件,拦截请求设置代理 阅读全文

posted @ 2019-07-03 11:21 海纳百川_有容乃大 阅读(3712) 评论(0) 推荐(0) 编辑

scrapy中的下载器中间件

摘要: 总结: 中的来说下载器中间件就是起到处理 request 请求并且返回response 的作用,一切从网页爬取的 url 发起去哦那个球会组成一个请求队列,然后一个一个排队经过下载器中间件,之后下载器中间件会对request 做出相应的处理,比如添加请求头,添加代理等等,然后通过 process_r 阅读全文

posted @ 2019-07-03 10:59 海纳百川_有容乃大 阅读(194) 评论(0) 推荐(0) 编辑

urllib 库的代替品 requests 的用法

摘要: Requuests 官方的介绍时多么的霸气,之所以那么霸气,是因为 Requestts 相比于 urllib 在使用方面上会让开发者感到更加的人性化、更加简洁、更加舒适,并且国外的一些公司也在使用requests库。 看看他又那些特性: 。Keep-Alive & 连接池 。国际化域名和 URI 。 阅读全文

posted @ 2019-07-03 10:42 海纳百川_有容乃大 阅读(209) 评论(0) 推荐(0) 编辑

爬虫

摘要: 一、什么是爬虫? 爬虫:一段从互联网上自动爬取对我们有价值的数据的程序 二、Python爬虫架构 Python爬虫架构主要由五个部分组成,分别是调度器、URL 管理器、网页下载器、网页解析器、应用程序(爬取有价值信息的程序) 调度器:相当于一台电脑的CPU,主要负责调度 URL 管理器、下载器、解析 阅读全文

posted @ 2019-07-03 09:55 海纳百川_有容乃大 阅读(152) 评论(0) 推荐(0) 编辑

导航