01 2019 档案

摘要:scrapy 五大核心组件的工作流程当执行爬虫文件时,5大核心组件就在工作了 spiders 引擎(Scrapy Engine)管道(item Pipeline)调度器(Scheduler)下载器(Downloader) 首先执行爬虫文件spider,spider的作用是 (1)解析(2)发请求,原 阅读全文
posted @ 2019-01-14 21:43 浮云遮月 阅读(727) 评论(0) 推荐(0) 编辑
摘要:scrapy 发送post请求 核心: 重写父类 start_requests方法,默认的 start_requests方法提交的是yield scrapy.Request(url=url,formdata=formdata,callback=self.parse)这种get请求,改写为 yield 阅读全文
posted @ 2019-01-14 21:41 浮云遮月 阅读(1095) 评论(0) 推荐(0) 编辑
摘要:Linux:pip3 install scrapy window: a:pip3 install wheel b:下载twisted高性能异步模块 https://www.lfd.uci.edu/~gohlke/pythonlibs/#twisted c:进入下载的目录 执行pip3 install 阅读全文
posted @ 2019-01-14 21:25 浮云遮月 阅读(492) 评论(0) 推荐(0) 编辑
摘要:安装 1 进入虚拟环境下安装 selenium :在cmd下输入 activate base 2 pip install selenium 简介: selenium 就是利用浏览器驱动模拟浏览器访问爬取页面, 优点:能有效的解决某些动态资源访问困难的问题 缺点:需要根据浏览器的具体版本选择下载浏览器 阅读全文
posted @ 2019-01-10 21:35 浮云遮月 阅读(227) 评论(0) 推荐(0) 编辑
摘要:近乎所有与python相关的面试都会问到缓存的问题,基础一点的会问到什么是“二八定律”、什么是“热数据和冷数据”,复杂一点的会问到缓存雪崩、缓存穿透、缓存预热、缓存更新、缓存降级等问题,这些看似不常见的概念,都与我们的缓存服务器相关,一般常用的缓存服务器有Redis、Memcached等,下面就来说 阅读全文
posted @ 2019-01-09 21:13 浮云遮月 阅读(97) 评论(0) 推荐(0) 编辑
摘要:今日内容 session处理cookie proxies参数设置请求代理ip 基于线程池的数据爬取 知识点回顾 xpath的解析流程 bs4的解析流程 常用xpath表达式 常用bs4解析方法 引入 有些时候,我们在使用爬虫程序去爬取一些用户相关信息的数据(爬取张三“人人网”个人主页数据)时,如果使 阅读全文
posted @ 2019-01-08 21:18 浮云遮月 阅读(187) 评论(0) 推荐(0) 编辑
摘要:引入 回顾requests实现数据爬取的流程 其实,在上述流程中还需要较为重要的一步,就是在持久化存储之前需要进行指定数据解析。因为大多数情况下的需求,我们都会指定去使用聚焦爬虫,也就是爬取页面中指定部分的数据值,而不是整个页面的数据。因此,本次课程中会给大家详细介绍讲解三种聚焦爬虫中的数据解析方式 阅读全文
posted @ 2019-01-08 21:18 浮云遮月 阅读(232) 评论(0) 推荐(0) 编辑
摘要:引入 Requests 唯一的一个非转基因的 Python HTTP 库,人类可以安全享用。 警告:非专业使用其他 HTTP 库会导致危险的副作用,包括:安全缺陷症、冗余代码症、重新发明轮子症、啃文档症、抑郁、头疼、甚至死亡。 今日概要 基于requests的get请求 基于requests模块的p 阅读全文
posted @ 2019-01-08 21:10 浮云遮月 阅读(155) 评论(0) 推荐(0) 编辑
摘要:一.HTTP协议 1.官方概念: HTTP协议是Hyper Text Transfer Protocol(超文本传输协议)的缩写,是用于从万维网(WWW:World Wide Web )服务器传输超文本到本地浏览器的传送协议。(虽然童鞋们将这条概念都看烂了,但是也没办法,毕竟这就是HTTP的权威官方 阅读全文
posted @ 2019-01-08 21:07 浮云遮月 阅读(218) 评论(0) 推荐(0) 编辑

点击右上角即可分享
微信分享提示