01 2019 档案
摘要:scrapy 五大核心组件的工作流程当执行爬虫文件时,5大核心组件就在工作了 spiders 引擎(Scrapy Engine)管道(item Pipeline)调度器(Scheduler)下载器(Downloader) 首先执行爬虫文件spider,spider的作用是 (1)解析(2)发请求,原
阅读全文
摘要:scrapy 发送post请求 核心: 重写父类 start_requests方法,默认的 start_requests方法提交的是yield scrapy.Request(url=url,formdata=formdata,callback=self.parse)这种get请求,改写为 yield
阅读全文
摘要:Linux:pip3 install scrapy window: a:pip3 install wheel b:下载twisted高性能异步模块 https://www.lfd.uci.edu/~gohlke/pythonlibs/#twisted c:进入下载的目录 执行pip3 install
阅读全文
摘要:安装 1 进入虚拟环境下安装 selenium :在cmd下输入 activate base 2 pip install selenium 简介: selenium 就是利用浏览器驱动模拟浏览器访问爬取页面, 优点:能有效的解决某些动态资源访问困难的问题 缺点:需要根据浏览器的具体版本选择下载浏览器
阅读全文
摘要:近乎所有与python相关的面试都会问到缓存的问题,基础一点的会问到什么是“二八定律”、什么是“热数据和冷数据”,复杂一点的会问到缓存雪崩、缓存穿透、缓存预热、缓存更新、缓存降级等问题,这些看似不常见的概念,都与我们的缓存服务器相关,一般常用的缓存服务器有Redis、Memcached等,下面就来说
阅读全文
摘要:今日内容 session处理cookie proxies参数设置请求代理ip 基于线程池的数据爬取 知识点回顾 xpath的解析流程 bs4的解析流程 常用xpath表达式 常用bs4解析方法 引入 有些时候,我们在使用爬虫程序去爬取一些用户相关信息的数据(爬取张三“人人网”个人主页数据)时,如果使
阅读全文
摘要:引入 回顾requests实现数据爬取的流程 其实,在上述流程中还需要较为重要的一步,就是在持久化存储之前需要进行指定数据解析。因为大多数情况下的需求,我们都会指定去使用聚焦爬虫,也就是爬取页面中指定部分的数据值,而不是整个页面的数据。因此,本次课程中会给大家详细介绍讲解三种聚焦爬虫中的数据解析方式
阅读全文
摘要:引入 Requests 唯一的一个非转基因的 Python HTTP 库,人类可以安全享用。 警告:非专业使用其他 HTTP 库会导致危险的副作用,包括:安全缺陷症、冗余代码症、重新发明轮子症、啃文档症、抑郁、头疼、甚至死亡。 今日概要 基于requests的get请求 基于requests模块的p
阅读全文
摘要:一.HTTP协议 1.官方概念: HTTP协议是Hyper Text Transfer Protocol(超文本传输协议)的缩写,是用于从万维网(WWW:World Wide Web )服务器传输超文本到本地浏览器的传送协议。(虽然童鞋们将这条概念都看烂了,但是也没办法,毕竟这就是HTTP的权威官方
阅读全文