2019 年 7月 3 日随笔档案 - 海纳百川_有容乃大

scrapy中使用 IP 代理

摘要：在 scrapy 中使用 ip 代理需要借助中间件的功能首先在settings 中设置好中间件，中间件优先级数字越小越先被执行然后编写中间件，拦截请求设置代理阅读全文

posted @ 2019-07-03 11:21 海纳百川_有容乃大阅读(3712) 评论(0) 推荐(0) 编辑

scrapy中的下载器中间件

摘要：总结：中的来说下载器中间件就是起到处理 request 请求并且返回response 的作用，一切从网页爬取的 url 发起去哦那个球会组成一个请求队列，然后一个一个排队经过下载器中间件，之后下载器中间件会对request 做出相应的处理，比如添加请求头，添加代理等等，然后通过 process_r 阅读全文

posted @ 2019-07-03 10:59 海纳百川_有容乃大阅读(194) 评论(0) 推荐(0) 编辑

urllib 库的代替品 requests 的用法

摘要： Requuests 官方的介绍时多么的霸气，之所以那么霸气，是因为 Requestts 相比于 urllib 在使用方面上会让开发者感到更加的人性化、更加简洁、更加舒适，并且国外的一些公司也在使用requests库。看看他又那些特性：。Keep-Alive & 连接池。国际化域名和 URI 。阅读全文

posted @ 2019-07-03 10:42 海纳百川_有容乃大阅读(209) 评论(0) 推荐(0) 编辑

爬虫

摘要：一、什么是爬虫？爬虫：一段从互联网上自动爬取对我们有价值的数据的程序二、Python爬虫架构 Python爬虫架构主要由五个部分组成，分别是调度器、URL 管理器、网页下载器、网页解析器、应用程序（爬取有价值信息的程序）调度器：相当于一台电脑的CPU，主要负责调度 URL 管理器、下载器、解析阅读全文

posted @ 2019-07-03 09:55 海纳百川_有容乃大阅读(152) 评论(0) 推荐(0) 编辑

scrapy中使用 IP 代理

scrapy中的下载器中间件

urllib 库的代替品 requests 的用法

爬虫

导航

公告